CN113010744A - 一种图数据生成方法、装置、服务器及存储介质 - Google Patents

一种图数据生成方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN113010744A
CN113010744A CN201911327964.6A CN201911327964A CN113010744A CN 113010744 A CN113010744 A CN 113010744A CN 201911327964 A CN201911327964 A CN 201911327964A CN 113010744 A CN113010744 A CN 113010744A
Authority
CN
China
Prior art keywords
vertex
graph
data
information
currently selected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911327964.6A
Other languages
English (en)
Inventor
吴鹏
柴永强
郝佳
王栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asiainfo Technologies China Inc
Original Assignee
Asiainfo Technologies China Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asiainfo Technologies China Inc filed Critical Asiainfo Technologies China Inc
Priority to CN201911327964.6A priority Critical patent/CN113010744A/zh
Publication of CN113010744A publication Critical patent/CN113010744A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种图数据生成方法、装置、服务器及存储介质,通过获取关联数据;读取关联数据的关联关系生成与关联关系相关的图特征抽取规则;并根据图特征抽取规则抽取关联数据的图特征信息(图特征信息包括顶点信息以及用于表征顶点之间关联关系的边信息);进而基于边信息分别生成顶点信息中每个顶点的图数据(图数据包括顶点的出度边信息和入度边信息)的方法,使得生成的图数据基于出度边信息和入度边信息能够表述图特征,进而基于本申请实施例生成的图数据可以降低图计算分析难度,提高图计算作业的性能。

Description

一种图数据生成方法、装置、服务器及存储介质
技术领域
本发明涉及图计算技术领域,更具体地说,涉及一种图数据生成方法、装置、服务器及存储介质。
背景技术
存在潜在的关联性的数据可以称为关联数据,各种场景下的关联数据都能转成图来表示,我们可以利用图来进行数据挖掘和机器学习,比如识别出有影响力的人和信息、社区发现、寻找产品和广告的投放用户、给有依赖关系的复杂数据构建模型等等这些都可以使用图来完成。
图数据的定义来源于图计算。图计算是以图论为基础的对现实世界的一种图结构的抽象表达,以及在这种数据结构上的计算模式。图计算使用的这种数据结构可以称之为图数据。
目前图计算领域使用的图数据大多以关系型数据的形式按行存储,这种形式的图数据只能描述数据中每个字段的信息,而无法清晰地表述数据中的图特征(比如,图的顶点、边等等)。这种形式的图数据在进行图分析时无法直接根据图特征进行关联,增加了图计算分析的难度,同时由于需要对每一条图数据进行图分析,会大大影响图计算分析作业性能。
发明内容
有鉴于此,本申请提供一种图数据生成方法、装置、服务器及存储介质,以生成能够表述数据中图特征的图数据,进而降低图计算分析的难度,提高图计算分析作业的性能。技术方案如下:
一种图数据生成方法,包括:
获取关联数据;
读取所述关联数据的关联关系生成与所述关联关系相关的图特征抽取规则;
根据所述图特征抽取规则抽取所述关联数据的图特征信息,所述图特征信息包括顶点信息以及用于表征顶点之间关联关系的边信息;
基于所述边信息分别生成所述顶点信息中每个顶点的图数据,所述图数据包括顶点的出度边信息和入度边信息。
优选的,所述读取所述关联数据的关联关系生成与所述关联关系相关的图特征抽取规则,包括:
读取所述关联数据的关联关系;
获取预先设置的图特征抽取函数;
根据所述关联关系和所述图特征抽取函数生成与所述关联关系相关的图特征抽取规则。
优选的,所述根据所述图特征抽取规则抽取所述关联数据的图特征信息,包括:
根据所述图特征抽取规则中的顶点抽取规则确定所述关联数据中的各个顶点;
确定各个所述顶点中任意两两顶点是否满足所述图特征抽取规则中的边抽取规则;
若所述两两顶点满足所述边抽取规则,确定所述两两顶点之间存在关联关系且所述两两顶点之间存在一条边;
利用所述图特征抽取规则中的属性抽取规则,从所述关联数据中抽取所述顶点的属性和所述边的属性;所述顶点和所述顶点的属性构成所述图特征信息中的顶点信息,所述边和所述边的属性构成所述图特征信息中的边信息。
优选的,所述基于所述边信息分别生成所述顶点信息中每个顶点的图数据,包括:
选取所述顶点信息中未被选取过的顶点;
根据所述边信息确定与当前被选取的顶点存在关联关系的目标顶点;
根据所述目标顶点生成当前被选取的顶点的图数据。
优选的,所述目标顶点包括第一顶点和第二顶点,所述第一顶点为当前被选取的顶点的关系发起方,当前被选取的顶点为所述第二顶点的关系发起方,所述根据所述目标顶点生成当前被选取的顶点的图数据,包括:
根据所述第一顶点生成当前被选取的顶点的入度边信息,所述入度边信息包括所述第一顶点的标识信息、所述第一顶点和当前被选取的顶点之间的边的属性和类型,所述第一顶点和当前被选取的顶点之间的边的类型为所述第一顶点和当前被选取的顶点所满足的边抽取规则指示的边类型;
利用所述第二顶点生成当前被选取的顶点的出度边信息,所述出度边信息包括所述第二顶点的标识信息、当前被选取的顶点和所述第二顶点之间的边的属性和类型,当前被选取的顶点和所述第二顶点之间的边的类型为所述第二顶点和当前被选取的顶点所满足的边抽取规则所匹配的边类型;
基于所述入度边信息和所述出度边信息生成当前被选取的顶点的图数据。
优选的,所述当前被选取的顶点的图数据还包括:当前被选取的顶点的类型以及当前被选取的顶点的属性。
一种图数据生成装置,包括:
关联数据获取单元,用于获取关联数据;
图特征抽取规则生成单元,用于读取所述关联数据的关联关系生成与所述关联关系相关的图特征抽取规则;
图特征信息抽取单元,用于根据所述图特征抽取规则抽取所述关联数据的图特征信息,所述图特征信息包括顶点信息以及用于表征顶点之间关联关系的边信息;
图数据生成单元,用于基于所述边信息分别生成所述顶点信息中每个顶点的图数据,所述图数据包括顶点的出度边信息和入度边信息。
优选的,所述图特征抽取规则生成单元,包括:
读取单元,用于读取所述关联数据的关联关系;
获取单元,用于获取预先设置的图特征抽取函数;
生成单元,用于根据所述关联关系和所述图特征抽取函数生成与所述关联关系相关的图特征抽取规则。
优选的,所述图特征信息抽取单元,包括:
顶点确定单元,用于根据所述图特征抽取规则中的顶点抽取规则确定所述关联数据中的各个顶点;
判断单元,用于确定各个所述顶点中任意两两顶点是否满足所述图特征抽取规则中的边抽取规则;
确定单元,用于若所述两两顶点满足所述边抽取规则,确定所述两两顶点之间存在关联关系且所述两两顶点之间存在一条边;
抽取单元,用于利用所述图特征抽取规则中的属性抽取规则,从所述关联数据中抽取所述顶点的属性和所述边的属性;所述顶点和所述顶点的属性构成所述图特征信息中的顶点信息,所述边和所述边的属性构成所述图特征信息中的边信息。
优选的,所述图数据生成单元,包括:
选取单元,用于选取所述顶点信息中未被选取过的顶点;
目标顶点确定单元,用于根据所述边信息确定与当前被选取的顶点存在关联关系的目标顶点;
图数据生成子单元,用于根据所述目标顶点生成当前被选取的顶点的图数据。
本申请实施例提供一种图数据生成方法、装置、服务器及存储介质,通过获取关联数据;读取关联数据的关联关系生成与关联关系相关的图特征抽取规则;并根据图特征抽取规则抽取关联数据的图特征信息(图特征信息包括顶点信息以及用于表征顶点之间关联关系的边信息);进而基于边信息分别生成顶点信息中每个顶点的图数据(图数据包括顶点的出度边信息和入度边信息)的方法,使得生成的图数据基于出度边信息和入度边信息能够表述图特征,进而基于本申请实施例生成的图数据可以降低图计算分析难度,提高图计算作业的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种图数据生成方法流程图;
图2为本申请实施例提供的一种图数据生成方法的架构图;
图3为本申请实施例提供的另一种图数据生成方法示意图;
图4为本申请实施例提供的一种根据图特征抽取规则抽取关联数据的图特征信息的方法流程图;
图5为本申请实施例提供的一种基于边信息分别生成顶点信息中每个顶点的图数据的方法流程图;
图6为本申请实施例提供的一种根据目标顶点生成当前被选取的顶点的图数据的方法流程图;
图7为本申请实施例提供的一种图数据生成装置的结构示意图;
图8为本申请实施例提供的一种图数据生成方法所适用于的服务器的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
基于上述背景技术可知,目前的图数据只能描述每个字段的信息而无法清晰地表述关联数据中的图特征,即顶点和边的信息。比如,通话数据大多以手机号码、对端号码、通话时间等信息存储,这种数据无法表述哪个字段为顶点字段、哪个字段为边字段。这种形式的图数据在进行图分析时无法直接根据图特征进行关联,增加了图计算分析的难度,同时由于需要对每一条图数据进行额外处理,会大大影响图计算分析作业性能。
图特征关联指的是不同的图数据之间根据顶点类型进行逻辑上的顶点连接,以完成不同图数据之间的查询跳转以及通过图特征关联构建由多个图数据组成的异构属性图。
实现图特征关联需要满足以下几个条件:图数据中有确定的顶点类型和其对应的顶点的唯一标识;图数据中有确定的边类型用以查询;图数据中有确定的属性类型和属性值用以查询过滤。
现有的图数据以上几个条件都不具备,无法直接进行图特征关联,也无法在图分析时直接进行查询跳转和异构属性图分析。若想实现图特征关联则必须在加载图数据之后再对每个图数据的图特征分析及重新构建,这个过程需要使用者对图特征非常熟悉才能完成,学习成本很高。
本申请实施例提供一种图数据生成方法、装置、服务器及存储介质,以生成能够表述数据中图特征的图数据,进而降低图计算分析的难度,提高图计算分析作业的性能。
结合图1-3对本申请实施例提供的一种图数据生成方法进行详细说明。其中,图1为本申请实施例提供的一种图数据生成方法流程图,图2为本申请实施例提供的一种图数据生成方法的架构图,图3为本申请实施例提供的另一种图数据生成方法示意图。
参见图1,该方法包括:
S101、获取关联数据;
本申请实施例,关联数据可以通过两种方式获取,一种是获取批量数据,将批量数据作为关联数据,批量数据为已落盘有组织的大量关联数据;另一种是获取实时数据,实时数据为不间断以消息事件形式上传的关联数据。
作为本申请实施例的一种优选实施方式,可以先获取批量数据然后对批量数据执行本申请实施例提供的一种图数据生成方法,并且在执行本申请实例提供的一种图数据生成方法的过程中,还可以接收实时数据,以对批量数据进行更新。
结合图2-3,步骤S101可以由数据接入实现。
S102、读取关联数据的关联关系生成与关联关系相关的图特征抽取规则;
本申请实施例,利用批量或实时的方式接入关联数据后,可以对关联数据进行简单地处理,比如对指定字段值/指定字段进行过滤,并由图特征抽取规则管理执行本申请实施例提供的步骤S102以对过滤后的结果进行处理生成图特征抽取规则。
作为本申请实施例的一种优选实施方式,可以读取关联数据的关联关系并自动生成与关联数据的关联关系相符合的图特征抽取规则。具体的,本申请实施例预先设置有用户自定义的图特征抽取函数,读取关联数据的关联关系后,根据图特征抽取函数和关联数据的关联关系生成与关联数据的关联关系相符合的图特征抽取规则。
需要说明的是,本申请实施例生成的图特征抽取规则中包括至少一条顶点抽取规则、至少一条边抽取规则和至少一条属性抽取规则。
关联数据的关联关系,比如,通话信息中指示通话发起方ID、通话接收方ID、通话时长、通话发起方和通话接收方在通话过程中买卖的商品ID,则可以认为通话信息与商品信息之间存在关联关系,商品信息中包括商品ID和商品ID指示的商品的商品属性。
用户自定义的图特征抽取函数,比如,若一条信息中携带主键和外键,则认为这条信息中主键为一个顶点,外键为一个顶点。以通话信息为例,通话信息中包括作为主键的通话发起方ID,以及作为外键的商品ID,则可以认为通话信息中的通话发起方ID为一个顶点,通话信息中的商品ID为一个顶点,将“通话信息中商品ID作为一个顶点、通话发起方ID作为一个顶点”认为是根据自定义的图特征抽取函数生成的一条与关联数据的关联关系相关的一条图特征抽取规则。
进一步的,本申请实施例提供的图特征抽取规则中还可以包括用户自定义的图特征抽取规则,比如,当该字段为时间戳时不可为顶点、当一条数据出现两个以上顶点时可为边、当关联数据字段为非顶点时可为属性等等。
本申请实施例,基于根据图特征抽取函数生成的图特征抽取规则以及用户自定义的图特征抽取规则,可以进行相应的点边属性集合生成,以生成关联数据的图特征。
在本申请实施例中,可以将图特征抽取规则看成是图特征抽取模型,基于图特征抽取模型可以实现图数据的自动化生成,图特征抽取模型可以用如下公式表示:
公式1:G={V,E,P}
公式2:V={v|v=g1(f(x)),x∈L}
公式3:E={e|e=g2(vi,vj),vi,vj∈V)
公式4:P={p|p=g3(x),x∈L}
公式1表示关联数据的图数据G由顶点集合V、边集合E和属性集合P组成;公式2表示顶点集合V里面的每个顶点v都是由关联数据L中的字段x的字段值经过顶点构建方法f转换之后再经过顶点抽取规则g1处理和筛选之后生成,顶点构建方法f用于将字段x的字段值转换成预设数据格式;公式3表示边集合E中的每个元素e都是由顶点集合V中的任意两个顶点经过边抽取规则g2计算之后生成,若两两顶点之间不存在关联关系则不生成e,若两两顶点之间存在关联关系则生成e;公式4表示属性集合P中的每个元素属性p都是由关联数据L中的字段x的字段值经过属性抽取规则g3处理之后生成。
基于本申请实施例提供的图特征抽取模型可以抽取关联数据中的顶点集合、边集合、以及属性集合,属性集合包括顶点集合中顶点的属性和边集合中边的属性。
S103、根据图特征抽取规则抽取关联数据的图特征信息,图特征信息包括顶点信息以及用于表征顶点之间关联关系的边信息;
本申请实施例,可以由图2-3中的图特征信息抽取根据上文中的公式2-4,可以完成从关联数据接入到生成离散的顶点、边、属性数据的整个过程,其中,具体包括顶点生成、边生成、属性生成。在接入关联数据后,首先通过顶点生成部分(公式2)生成符合顶点抽取规则的带有顶点ID的顶点集合,然后通过边生成部分(公式3)生成符合边抽取规则的顶点之间的边集合,最后再通过属性生成部分(公式4)生成顶点和边上的属性集合。
本申请可以根据图特征抽取规则对批量或实时数据进行数据校验、顶点抽取、边抽取、属性抽取等操作,处理完成的数据会形成顶点、边、属性三种数据集合,便于进行下一步的图数据构建。其中,可以将顶点集合以及属性集合中顶点的属性看成是顶点信息,将边集合以及属性集合中边的属性看成是边信息。
S104、基于边信息分别生成顶点信息中每个顶点的图数据,图数据包括顶点的出度边信息和入度边信息。
本申请实施例,可以由图2-3中的图数据生成根据上一步生成的关联数据的图特征信息进行数据重组,生成多条图数据,每条图数据具有完整图特征。例如:图数据包括顶点ID、顶点类型,顶点属性、出度边信息(对向顶点ID+边类型+边属性),入度边信息(对向顶点ID+边类型+边属性)。针对关联数据的图特征信息的顶点集合中每个顶点,构建该顶点的图数据,将各个顶点的图数据的集合看成是关联数据的图数据,将关联数据的图数据进行存储,为后续的图计算分析提供数据源。
本申请实施例可以支持关联数据的图数据的HDFS存储或本地存储。以上仅仅是本申请实施例提供的图数据存储的优选方式,有关图数据存储的具体方式,发明人可根据自己的需求进行设置,在此不做限定。
进一步的,本申请实施例还可以由图3中的图数据输出实现对关联数据的图数据的输出,以便于利用图数据进行图计算分析。
基于本申请实施例提供的一种图数据生成方法所生成的图数据可以更好的被图计算分析作业读取,读取图数据过程中不需要二次分析图特征,提高了图计算分析作业性能。
图4为本申请实施例提供的一种根据图特征抽取规则抽取关联数据的图特征信息的方法流程图。
如图4所示,该方法包括:
S401、根据图特征抽取规则中的顶点抽取规则确定关联数据中的各个顶点;
本申请实施例,图特征抽取规则中包括至少一条顶点抽取规则,针对至少一条顶点抽取规则中的每条顶点抽取规则,根据该条顶点抽取规则确定关联数据中的各个顶点;进而将根据各条顶点抽取规则确定的所有顶点作为步骤S401所确定的关联数据中的各个顶点。
其中,针对一条顶点抽取规则而言,可以将关联数据中满足该条顶点抽取规则的字段的每个字段值确定为该关联数据中的一个顶点;进而将根据各条顶点抽取规则抽取的各个顶点的并集作为顶点集合。比如,至少一条顶点抽取规则包括顶点抽取规则1和顶点抽取规则2,根据顶点抽取规则1确定关联数据中的顶点1和顶点2,根据顶点抽取规则2确定关联数据中的顶点3,则将顶点1、顶点2和顶点3构成的集合看成是顶点集合。
S402、确定各个顶点中任意两两顶点是否满足图特征抽取规则中的边抽取规则;若两两顶点满足边抽取规则,执行步骤S403;
本申请实施例中,图特征抽取规则中包括至少一个边抽取规则,确定顶点集合中的任意两两顶点,针对每组两两顶点确定这组两两顶点是否满足至少一个边抽取规则中的任意一个边抽取规则,只要至少一个边抽取规则中存在这组两两顶点满足的边抽取规则,就认为这组两两顶点满足边抽取规则,进而执行步骤S403;若这组两两顶点不满足至少一个边抽取规则中的任意一个边抽取规则,则认为这组两两顶点不满足边抽取规则。
进一步的,本申请实施例提供的一种图数据生成方法,在两两顶点不满足边抽取规则时,可以确定这组两两顶点中的两个顶点之间不存在关联关系,这组两两顶点中的两个顶点之间不存在一条边。
比如,若顶点集合中包括顶点1、顶点2和顶点3,则将顶点1和顶点2看成一组两两顶点,将顶点1和顶点3看成一组两两顶点,将顶点2和顶点3看成一组两两顶点;判断至少一个边抽取规则中是否存在顶点1和顶点2满足的边抽取规则,若存在,则认为顶点1和顶点2之间存在关联关系且顶点1和顶点2之间存在一条边,若不存在,则认为顶点1和顶点2之间不存在关联关系且顶点1和顶点2之间不存在边;判断至少一个边抽取规则中是否存在顶点1和顶点3满足的边抽取规则,若存在,则认为顶点1和顶点3之间存在关联关系且顶点1和顶点3之间存在一条边,若不存在,则认为顶点1和顶点3之间不存在关联关系且顶点1和顶点3之间不存在边;判断至少一个边抽取规则中是否存在顶点2和顶点3满足的边抽取规则,若存在,则认为顶点2和顶点3之间存在关联关系且顶点2和顶点3之间存在一条边,若不存在,则认为顶点2和顶点3之间不存在关联关系且顶点2和顶点3之间不存在边。
需要说明的是,通常情况下两两顶点最多只能满足一条边抽取规则。
S403、确定两两顶点之间存在关联关系且两两顶点之间存在一条边;
S404、利用图特征抽取规则中的属性抽取规则,从关联数据中抽取顶点的属性和边的属性;顶点和顶点的属性构成图特征信息中的顶点信息,边和边的属性构成图特征信息中的边信息。
本申请实施例中,图特征抽取规则中包括至少一个属性抽取规则,可以在确定两两顶点满足的边抽取规则后,从至少一个属性抽取规则中选取与所确定的边抽取规则对应的属性抽取规则,进而根据选取的属性抽取规则从关联数据中抽取这组两两顶点中每个顶点的属性以及这组两两顶点中两个顶点之间的边的属性。
以上仅仅是本申请实施例提供的一种利用图特征抽取规则中的属性抽取规则从关联数据中抽取顶点的属性和边的属性的优选方式,有关抽取顶点的属性和边的属性的具体方式,发明人可根据自己的需求进行设置,在此不做限定。
图5为本申请实施例提供的一种基于边信息分别生成顶点信息中每个顶点的图数据的方法流程图。
如图5所示,该方法包括:
S501、选取顶点信息中未被选取过的顶点;
本申请实施例,可以从顶点集合中选取一个未被选取过的顶点作为步骤S501选取的顶点。
S502、根据边信息确定与当前被选取的顶点存在关联关系的目标顶点;
本申请实施例,确定当前被选取的顶点后,可以根据边集合中的各个边确定与该当前被选取的顶点存在关联关系的各个顶点,将所确定的每个顶点看成是一个目标顶点。若一个顶点与另一个顶点之间存在一条边,则认为这两个顶点存在关联关系。
比如,边集合中包括2条边,分别为顶点1和顶点2之间的一条边,以及顶点1和顶点3之间的一条边,若当前被选取的顶点为顶点1,则根据边集合中各个边确定与顶点1存在关联关系的顶点为两个,分别为顶点2和顶点3,则顶点2为一个与顶点1存在关联关系的目标顶点,且顶点3也为一个与顶点1存在关联关系的目标顶点。
S503、根据目标顶点生成当前被选取的顶点的图数据;
本申请实施例,与当前被选取的顶点存在关联关系的目标顶点的数量可能为一个或多个,其中,与当前被选取的顶点存在关联关系的目标顶点可能包括至少一个第一顶点,或者,与当前被选取的顶点存在关联关系的目标顶点可能包括至少一个第二顶点,或者,与当前被选取的顶点存在关联关系的目标顶点可能包括至少一个第一顶点以及至少一个第二顶点。
第一顶点为当前被选取的顶点的关系发起方,具体的,第一顶点和当前被选取的顶点之间存在关联关系,第一顶点为该关联关系的关系发起方。比如,第一顶点为用户,当前被选取的顶点为商品时,第一顶点和当前被选取的顶点之间的关联关系为购买关系,第一顶点为购买关系的关系发起方。再比如,第一顶点为电话发起方,当前被选取的顶点为电话接收方,第一顶点和当前被选取的顶点之间的关系为呼叫关系,第一顶点为呼叫关系的关系发起方。
当前被选取的顶点为第二顶点的关系发起方,具体的,第二顶点和当前被选取的顶点之间存在关联关系,当前被选取的顶点为该关联关系的关系发起方。比如,当前被选取的顶点为用户,第二顶点为商品时,第二顶点和当前被选取的顶点之间的关联关系为购买关系,当前被选取的顶点为购买关系的关系发起方。再比如,当前被选取的顶点为电话发起方,第二顶点为电话接收方,第二顶点和当前被选取的顶点之间的关系为呼叫关系,当前被选取的顶点为呼叫关系的关系发起方。
S504、判断顶点信息中是否存在未被选取过的顶点;若顶点信息中存在未被选取过的顶点,返回执行步骤S501;
进一步的,本申请实施例提供的一种图数据生成方法,若顶点信息中不存在未被选取过的顶点,确定顶点信息中的每个顶点均已生成了相应的图数据,进而认为关联数据的图数据生成完成,将生成的所有的图数据看成是关联数据的图数据。
现以与当前被选取的顶点存在关联关系的目标顶点中既包括第一顶点又包括第二顶点为例,结合图6对本申请实施例提供的一种根据目标顶点生成当前被选取的顶点的图数据的方法进行详细说明。
如图6所示,该方法包括:
S601、根据第一顶点生成当前被选取的顶点的入度边信息,入度边信息包括第一顶点的标识信息、第一顶点和当前被选取的顶点之间的边的属性和类型,第一顶点和当前被选取的顶点之间的边的类型为第一顶点和当前被选取的顶点所满足的边抽取规则所匹配的边类型;
本申请实施例,分别针对目标顶点中的每个第一顶点生成一个入度边信息,分别针对目标顶点中的每个第二顶点生成一个出度边信息。比如,当前被选取的顶点为顶点1,与顶点1存在关联关系的目标顶点包括顶点2、顶点3和顶点4;其中,顶点2为第一顶点,顶点3和顶点4均为第二顶点;则针对顶点2生成一个顶点1的入度边信息,针对顶点3生成一个顶点1的出度边信息,针对顶点4生成一个顶点1的出度边信息。
针对一个第一顶点而言,根据该第一顶点生成的当前被选取的顶点的入度边信息中包括:该第一顶点ID、该第一顶点和当前被选取的顶点之间的边的属性和类型,其中,第一顶点和当前被选取的顶点之间的边的类型为第一顶点和当前被选取的顶点所满足的边抽取规则指示的边类型。
需要说明的是,第一顶点和当前被选取的顶点之间的边的类型也可以理解为第一顶点和当前被选取的顶点之间的关联关系的关系类型。比如,当第一顶点和当前被选取的顶点之间的关联关系为呼叫关系时,第一顶点和当前被选取的顶点之间的边的类型为呼叫类型;当第一顶点和当前被选取的顶点之间的关联关系为购买关系时,第一顶点和当前被选取的顶点之间的边的类型为购买类型。
其中,第一顶点和当前被选取的顶点之间的边的属性可以理解为第一顶点和当前被选取的顶点之间的关联关系的属性信息。比如,第一顶点和当前被选取的顶点之间的关联关系为购买关系时,第一顶点和当前被选取的顶点之间的边的属性可以包括购买价格、购买时间等等;第一顶点和当前被选取的顶点之间的关联关系为呼叫关系时,第一顶点和当前被选取的顶点之间的边的属性可以包括呼叫时长、呼叫时间等等。
S602、利用第二顶点生成当前被选取的顶点的出度边信息,出度边信息包括第二顶点的标识信息、当前被选取的顶点和第二顶点之间的边的属性和类型,当前被选取的顶点和第二顶点之间的边的类型为第二顶点和当前被选取的顶点所满足的边抽取规则指示的边类型;
本申请实施例,针对一个第二顶点而言,根据该第二顶点生成的当前被选取的顶点的出度边信息中包括:该第二顶点ID、该第二顶点和当前被选取的顶点之间的边的属性和类型,其中,第二顶点和当前被选取的顶点之间的边的类型为第二顶点和当前被选取的顶点所满足的边抽取规则指示的边类型。
需要说明的是,第二顶点和当前被选取的顶点之间的边的类型也可以理解为第二顶点和当前被选取的顶点之间的关联关系的关系类型。比如,当第二顶点和当前被选取的顶点之间的关联关系为呼叫关系时,第二顶点和当前被选取的顶点之间的边的类型为呼叫类型;当第二顶点和当前被选取的顶点之间的关联关系为购买关系时,第二顶点和当前被选取的顶点之间的边的类型为购买类型。
其中,第二顶点和当前被选取的顶点之间的边的属性可以理解为第二顶点和当前被选取的顶点之间的关联关系的属性信息。比如,第二顶点和当前被选取的顶点之间的关联关系为购买关系时,第二顶点和当前被选取的顶点之间的边的属性可以包括购买价格、购买时间等等;第二顶点和当前被选取的顶点之间的关联关系为呼叫关系时,第二顶点和当前被选取的顶点之间的边的属性可以包括呼叫时长、呼叫时间等等。
S603、基于入度边信息和出度边信息生成当前被选取的顶点的图数据。
本申请实施例,当前被选取的顶点的图数据包括根据与当前被选取的顶点存在关联关系的第一顶点生成的入度边信息、根据与当前被选取的顶点存在关联关系的第二顶点生成的出度边信息,当前被选取的顶点的类型,以及当前被选取的顶点的属性。
其中,顶点的类型与顶点自身相关,比如,当顶点为用户时,顶点的类型为用户类型;当顶点为商品时,顶点的类型为商品类型。
本申请提到了图数据的数据格式为顶点ID,出度边(对向顶点ID+边类型+边属性),入度边(对向顶点ID+边类型+边属性),顶点类型,顶点属性。可以看到使用本申请提供的一种图数据生成方法所生成的图数据符合图特征关联需要满足的三个条件。基于本申请实施例提供的一种图数据生成方法可以完美的解决图数据的关联问题,本申请实施例提供的一种图数据生成方法所生成的关联数据的图数据中的各个顶点可以属于不同的顶点类型,对于多种图数据组成的异构属性图在进行处理分析时可以非常方便的进行数据关联跳转,实现多种图应用场景。
本申请提出一种图数据生成方法,该方法通过一系列的数据处理将关联数据直接转换为具有图特征的图数据,转换之后的图数据被加载时无需进行额外处理即可构建完整的属性图。
如下,对本申请实施例提供的一种图数据生成方法所生成的图数据对图计算分析作业性能的影响进行说明。
1.通过下面的性能指标计算模型可以分析出使用传统图数据方案为何影响图计算分析作业性能:
Figure BDA0002328868250000141
τ表示图计算分析作业加载图数据所需要的时间,θ表示构建图特征的复杂度,V表示所有业务需要的顶点规模,E表示所有业务需要的边的规模,P表示所有业务需要的属性的规模,ρ表示服务器的性能指标。一般构建图特征的复杂度θ根据业务确定之后可以认为不会改变,那么随着图计算分析作业需要的顶点和边的规模增大,加载图数据所需要的时间势必会一直增长。要想减小加载时间τ就只能增大ρ,带来巨大的成本。
使用本申请实施例提供的一种图数据生成方法所构建的图数据在被图数据分析作业加载时的性能指标模型为:
Figure BDA0002328868250000151
τ表示图计算分析作业加载图数据所需要的时间,ρ表示服务器的性能指标。可以看到,由于不需要在加载数据时进行图特征分析及构建,使用本申请中提出的***构建的图数据加载性能只与服务器性能指标有关。同时本申请***中生成的图数据带有完整的图关系,因此可以被不同的图计算分析作业复用,不需要每次加载数据再额外耗费资源进行图数据转换,大大提高了性能。
图7为本申请实施例提供的一种图数据生成装置的结构示意图。
如图7所示,该装置包括:
关联数据获取单元71,用于获取关联数据;
图特征抽取规则生成单元72,用于读取关联数据的关联关系生成与关联关系相关的图特征抽取规则;
图特征信息抽取单元73,用于根据图特征抽取规则抽取关联数据的图特征信息,图特征信息包括顶点信息以及用于表征顶点之间关联关系的边信息;
图数据生成单元74,用于基于边信息分别生成顶点信息中每个顶点的图数据,图数据包括顶点的出度边信息和入度边信息。
本申请实施例中,优选的,图特征抽取规则生成单元,包括:
读取单元,用于读取关联数据的关联关系;
获取单元,用于获取预先设置的图特征抽取函数;
生成单元,用于根据关联关系和图特征抽取函数生成与关联关系相关的图特征抽取规则。
本申请实施例中,优选的,图特征信息抽取单元,包括:
顶点确定单元,用于根据图特征抽取规则中的顶点抽取规则确定关联数据中的各个顶点;
判断单元,用于确定各个顶点中任意两两顶点是否满足图特征抽取规则中的边抽取规则;
确定单元,用于若两两顶点满足边抽取规则,确定两两顶点之间存在关联关系且两两顶点之间存在一条边;
抽取单元,用于利用图特征抽取规则中的属性抽取规则,从关联数据中抽取顶点的属性和边的属性;顶点和顶点的属性构成图特征信息中的顶点信息,边和边的属性构成图特征信息中的边信息。
本申请实施例中,优选的,图数据生成单元,包括:
选取单元,用于选取顶点信息中未被选取过的顶点;
目标顶点确定单元,用于根据边信息确定与当前被选取的顶点存在关联关系的目标顶点;
图数据生成子单元,用于根据目标顶点生成当前被选取的顶点的图数据。
在本申请实施例中,优选的,目标顶点包括第一顶点和第二顶点,第一顶点为当前被选取的顶点的关系发起方,当前被选取的顶点为第二顶点的关系发起方,图数据生成子单元,包括:
入度边信息生成单元,用于根据第一顶点生成当前被选取的顶点的入度边信息,入度边信息包括第一顶点的标识信息、第一顶点和当前被选取的顶点之间的边的属性和类型,第一顶点和当前被选取的顶点之间的边的类型为第一顶点和当前被选取的顶点所满足的边抽取规则指示的边类型;
出度边信息生成单元,用于利用第二顶点生成当前被选取的顶点的出度边信息,出度边信息包括第二顶点的标识信息、当前被选取的顶点和第二顶点之间的边的属性和类型,当前被选取的顶点和第二顶点之间的边的类型为第二顶点和当前被选取的顶点所满足的边抽取规则所匹配的边类型;
生成单元,用于基于入度边信息和出度边信息生成当前被选取的顶点的图数据。
在本申请实施例中,优选的,当前被选取的顶点的图数据还包括:当前被选取的顶点的类型以及当前被选取的顶点的属性。
为了便于理解,现从服务器的角度对本申请实施例提供的一种图数据生成方法进行详细说明。服务器可以是网络侧为用户提供服务的服务设备,其可能是多台服务器组成的服务器集群,也可能是单台服务器。
图8为本申请实施例提供的一种服务器的硬件结构框图。参照图8,服务器的硬件结构可以包括:处理器81,通信接口82,存储器83和通信总线84;
在本发明实施例中,处理器81、通信接口82、存储器83、通信总线84的数量均可以为至少一个,且处理器81、通信接口82、存储器83通过通信总线84完成相互间的通信;
处理器81可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器83可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,程序用于:
获取关联数据;
读取关联数据的关联关系生成与关联关系相关的图特征抽取规则;
根据图特征抽取规则抽取关联数据的图特征信息,图特征信息包括顶点信息以及用于表征顶点之间关联关系的边信息;
基于边信息分别生成顶点信息中每个顶点的图数据,图数据包括顶点的出度边信息和入度边信息。
可选的,程序的细化功能和扩展功能可参照上文描述。
进一步的,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令用于执行上述图数据生成方法。
可选的,计算机可执行指令的细化功能和扩展功能可参照上文描述。
本申请实施例提供一种图数据生成方法、装置、服务器及存储介质,通过获取关联数据;读取关联数据的关联关系生成与关联关系相关的图特征抽取规则;并根据图特征抽取规则抽取关联数据的图特征信息(图特征信息包括顶点信息以及用于表征顶点之间关联关系的边信息);进而基于边信息分别生成顶点信息中每个顶点的图数据(图数据包括顶点的出度边信息和入度边信息)的方法,使得生成的图数据基于出度边信息和入度边信息能够表述图特征,进而基于本申请实施例生成的图数据可以降低图计算分析难度,提高图计算作业的性能。
以上对本发明所提供的一种图数据生成方法、装置、服务器及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种图数据生成方法,其特征在于,包括:
获取关联数据;
读取所述关联数据的关联关系生成与所述关联关系相关的图特征抽取规则;
根据所述图特征抽取规则抽取所述关联数据的图特征信息,所述图特征信息包括顶点信息以及用于表征顶点之间关联关系的边信息;
基于所述边信息分别生成所述顶点信息中每个顶点的图数据,所述图数据包括顶点的出度边信息和入度边信息。
2.根据权利要求1所述的方法,其特征在于,所述读取所述关联数据的关联关系生成与所述关联关系相关的图特征抽取规则,包括:
读取所述关联数据的关联关系;
获取预先设置的图特征抽取函数;
根据所述关联关系和所述图特征抽取函数生成与所述关联关系相关的图特征抽取规则。
3.根据权利要求1所述的方法,其特征在于,所述根据所述图特征抽取规则抽取所述关联数据的图特征信息,包括:
根据所述图特征抽取规则中的顶点抽取规则确定所述关联数据中的各个顶点;
确定各个所述顶点中任意两两顶点是否满足所述图特征抽取规则中的边抽取规则;
若所述两两顶点满足所述边抽取规则,确定所述两两顶点之间存在关联关系且所述两两顶点之间存在一条边;
利用所述图特征抽取规则中的属性抽取规则,从所述关联数据中抽取所述顶点的属性和所述边的属性;所述顶点和所述顶点的属性构成所述图特征信息中的顶点信息,所述边和所述边的属性构成所述图特征信息中的边信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述边信息分别生成所述顶点信息中每个顶点的图数据,包括:
选取所述顶点信息中未被选取过的顶点;
根据所述边信息确定与当前被选取的顶点存在关联关系的目标顶点;
根据所述目标顶点生成当前被选取的顶点的图数据。
5.根据权利要求4所述的方法,其特征在于,所述目标顶点包括第一顶点和第二顶点,所述第一顶点为当前被选取的顶点的关系发起方,当前被选取的顶点为所述第二顶点的关系发起方,所述根据所述目标顶点生成当前被选取的顶点的图数据,包括:
根据所述第一顶点生成当前被选取的顶点的入度边信息,所述入度边信息包括所述第一顶点的标识信息、所述第一顶点和当前被选取的顶点之间的边的属性和类型,所述第一顶点和当前被选取的顶点之间的边的类型为所述第一顶点和当前被选取的顶点所满足的边抽取规则指示的边类型;
利用所述第二顶点生成当前被选取的顶点的出度边信息,所述出度边信息包括所述第二顶点的标识信息、当前被选取的顶点和所述第二顶点之间的边的属性和类型,当前被选取的顶点和所述第二顶点之间的边的类型为所述第二顶点和当前被选取的顶点所满足的边抽取规则所匹配的边类型;
基于所述入度边信息和所述出度边信息生成当前被选取的顶点的图数据。
6.根据权利要求5所述的方法,其特征在于,所述当前被选取的顶点的图数据还包括:当前被选取的顶点的类型以及当前被选取的顶点的属性。
7.一种图数据生成装置,其特征在于,包括:
关联数据获取单元,用于获取关联数据;
图特征抽取规则生成单元,用于读取所述关联数据的关联关系生成与所述关联关系相关的图特征抽取规则;
图特征信息抽取单元,用于根据所述图特征抽取规则抽取所述关联数据的图特征信息,所述图特征信息包括顶点信息以及用于表征顶点之间关联关系的边信息;
图数据生成单元,用于基于所述边信息分别生成所述顶点信息中每个顶点的图数据,所述图数据包括顶点的出度边信息和入度边信息。
8.根据权利要求7所述的装置,其特征在于,所述图特征抽取规则生成单元,包括:
读取单元,用于读取所述关联数据的关联关系;
获取单元,用于获取预先设置的图特征抽取函数;
生成单元,用于根据所述关联关系和所述图特征抽取函数生成与所述关联关系相关的图特征抽取规则。
9.一种服务器,其特征在于,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于实现如权利要求1-6任意一项所述的图数据生成方法。
10.一种计算机可读存储介质,其特征在于,用于存储实现如权利要求1-6任意一项所述的图数据生成方法的程序。
CN201911327964.6A 2019-12-20 2019-12-20 一种图数据生成方法、装置、服务器及存储介质 Pending CN113010744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911327964.6A CN113010744A (zh) 2019-12-20 2019-12-20 一种图数据生成方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911327964.6A CN113010744A (zh) 2019-12-20 2019-12-20 一种图数据生成方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN113010744A true CN113010744A (zh) 2021-06-22

Family

ID=76381775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911327964.6A Pending CN113010744A (zh) 2019-12-20 2019-12-20 一种图数据生成方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN113010744A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140575A (zh) * 2021-10-21 2022-03-04 北京航空航天大学 三维模型构建方法、装置和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140575A (zh) * 2021-10-21 2022-03-04 北京航空航天大学 三维模型构建方法、装置和设备

Similar Documents

Publication Publication Date Title
CN108345481B (zh) 一种页面显示方法、装置、客户端及服务器
CN110225036B (zh) 一种账号检测方法、装置、服务器及存储介质
WO2016110121A1 (zh) 数据栅格化、用户行为分析的方法和装置
CN107423070B (zh) 一种页面生成方法及装置
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
CN110111167A (zh) 一种确定推荐对象的方法和装置
CN105721629A (zh) 用户标识匹配方法和装置
US10901992B2 (en) System and method for efficiently handling queries
CN110727857A (zh) 针对业务对象识别***的关键特征的方法及装置
US20230244862A1 (en) Form processing method and apparatus, device, and storage medium
CN111815467A (zh) 审核方法以及装置
CN112861963A (zh) 训练实体特征提取模型的方法、装置和存储介质
CN111913880A (zh) 一种应用软件测试方法及装置
CN109190027A (zh) 多源推荐方法、终端、服务器、计算机设备、可读介质
CN115470867A (zh) 基于知识图谱的坐席匹配方法、装置、设备及存储介质
CN110086894B (zh) 人员关联信息挖掘方法、通讯推荐方法及相关装置
CN110782169A (zh) 更新业务流程方法和装置
CN108829882B (zh) 信息收集方法、装置、终端及介质
CN112559868B (zh) 信息召回方法、装置、存储介质及电子设备
CN110572521A (zh) 语音播报方法及装置
CN113010744A (zh) 一种图数据生成方法、装置、服务器及存储介质
CN108229133B (zh) 一种业务操作方法及装置、业务权限获取方法及装置
CN115936758A (zh) 基于大数据的智能拓客方法及相关装置
CN106469086B (zh) 事件处理方法和装置
CN117194080B (zh) 消息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination