CN110688433A - 一种基于路径的特征生成方法及装置 - Google Patents

一种基于路径的特征生成方法及装置 Download PDF

Info

Publication number
CN110688433A
CN110688433A CN201911254655.0A CN201911254655A CN110688433A CN 110688433 A CN110688433 A CN 110688433A CN 201911254655 A CN201911254655 A CN 201911254655A CN 110688433 A CN110688433 A CN 110688433A
Authority
CN
China
Prior art keywords
entity
path
relationship
target entity
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911254655.0A
Other languages
English (en)
Other versions
CN110688433B (zh
Inventor
卢翠兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unionpay Marketing Data Services Ltd
Original Assignee
Unionpay Marketing Data Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unionpay Marketing Data Services Ltd filed Critical Unionpay Marketing Data Services Ltd
Priority to CN201911254655.0A priority Critical patent/CN110688433B/zh
Publication of CN110688433A publication Critical patent/CN110688433A/zh
Application granted granted Critical
Publication of CN110688433B publication Critical patent/CN110688433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于路径的特征生成方法及装置,其中,方法包括:获取数据集中的实体和属性,根据实体生成包括多个第一有向关系的有向关系集合,针对有向关系集合中的任一个第一有向关系,若确定第一有向关系中的第一实体和第二实体具有相同属性,则根据相同属性生成虚拟类实体,根据虚拟类实体和第一有向关系生成第二有向关系,将第二有向关系加入至有向关系集合中,根据有向关系集合和目标实体,生成目标实体的关系路径集合,再根据目标实体的关系路径集合,生成目标实体的特征集合。该技术方案用于自动生成目标实体的目标特征,节约人力成本,且生成的特征集合可解释。

Description

一种基于路径的特征生成方法及装置
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种基于路径的特征生成方法及装置。
背景技术
企业业务发展积累了大量、多维度的结构化数据。机器学习模型比起专家制定规则的方法,在处理海量数据以实现业务目标的效率和效果上往往更好。从数据中挖掘出有效的特征对于模型效果而言有着决定性作用。
在特征提取过程中,专家需要结合业务目标和自身积累的实践经验,人工进行特征工程,以确定出用于建立模型的特征集合,但该方式不仅需要耗费大量的人力和时间,而且受专家主观性影响较大,获取到的特征集合的标准不一致。一般自动特征工程使用暴力组合的形式,生成的特征可解释性较弱。
发明内容
本发明实施例提供一种基于路径的特征生成方法及装置,用于自动生成目标实体的目标特征,节约人力成本,且生成的特征集合可解释。
本发明实施例提供的一种基于路径的特征生成方法,包括:
获取数据集中的实体和属性;所述实体包括行为类实体和实物类实体;
根据所述数据集中的实体生成包括多个第一有向关系的有向关系集合;所述第一有向关系包括第一实体指向第二实体,所述第一实体和所述第二实体是所述数据集中的实体的任意两个,所述第一实体和所述第二实体在所述数据集中是多对一关系;
针对所述有向关系集合中的任一个第一有向关系,若确定所述第一有向关系中的第一实体和所述第二实体具有相同属性,则根据所述相同属性生成虚拟类实体;根据所述虚拟类实体和所述第一有向关系生成第二有向关系,将所述第二有向关系加入至所述有向关系集合中;所述第二有向关系包括所述第一实体指向所述虚拟类实体和所述虚拟类实体指向所述第二实体;
根据所述有向关系集合和目标实体,生成所述目标实体的关系路径集合;
根据所述目标实体的关系路径集合,生成所述目标实体的特征集合;所述目标实体的特征集合用于以所述目标实体为样本的模型训练中。
可选的,所述根据所述有向关系集合和目标实体,生成所述目标实体的关系路径集合,包括:
将所述有向关系集合中的有向关系顺序组合,生成指向所述目标实体的多个关系路径;
将所述多个关系路径组成所述目标实体的关系路径集合。
可选的,所述将所述有向关系集合中的有向关系顺序组合,生成指向所述目标实体的多个关系路径,包括:
若确定生成仅包括两个实物类实体且路径长度为1的第一关系路径,则根据所述两个实物类实体的相同属性,将所述第一关系路径更新为所述两个实物类实体的相同属性连接所述两个实物类实体的路径长度为2的第二关系路径;
其中,所述路径长度指关系路径内有向关系的个数。
可选的,所述根据所述目标实体的关系路径集合,生成所述目标实体的特征集合,包括:
以路径长度递增的顺序,根据所述关系路径集合中各关系路径生成所述关系路径对应的所述目标实体的特征集合,并记录各个特征对应的属性;
其中,所述根据关系路径生成所述关系路径对应的所述目标实体的特征集合,包括:
以递归的形式生成指向除所述目标实体外的其余实体的子关系路径;针对每条子关系路径,根据所述其余实体在所述数据集中的数据,确定所述其余实体的临时特征;所述其余实体包括实物类实体和虚拟类实体;
根据所述其余实体的临时特征及所述关系路径,依次进行聚合运算操作和组合运算操作,生成所述关系路径对应的所述目标实体的特征集合。
可选的,所述根据所述其余实体的临时特征及所述关系路径,进行组合运算操作,包括:
根据所述其余实体的临时特征及所述关系路径,进行属性可达的组合运算操作;所述属性可达指在确定两个临时特征对应的属性相同或其中一个临时特征为计数、比率属性时,可以对所述两个临时特征进行组合运算。
可选的,所述其余实体为虚拟类实体且所述虚拟类实体指向所述目标实体;
所述确定所述其余实体的临时特征之后,包括:
根据所述虚拟类实体的临时特征和已生成的所述关系路径对应的所述目标实体的特征集合,进行属性可达的组合运算操作,确定所述目标实体的参考点特征。
可选的,所述关系路径集合中包括可循环路径;所述可循环路径中出现至少两次所述目标实体;
所述根据所述目标实体的关系路径集合,生成所述目标实体的特征集合,包括:
根据所述可循环路径中的第一子关系路径,生成所述可循环路径下的其余实体的临时特征;所述第一子关系路径是所述可循环路径中包含所述目标实体指向其余实体的子关系路径;
根据所述可循环路径下的其余实体的临时特征,结合所述可循环路径中的第二子关系路径,生成所述目标实体的交互特征;所述第二子关系路径是包含所述其余实体指向所述目标实体的子关系路径。
可选的,所述根据所述目标实体的关系路径集合,生成所述目标实体的特征集合,包括:
针对所述目标实体在第一时间段的特征和所述目标实体在第二时间段的特征,在所述第一时间段和第二时间段的两两特征之间满足属性可达时,进行组合运算,确定所述目标实体的趋势特征。
可选的,在所述生成所述目标实体的特征集合之后,还包括:
将实体集合、所述有向关系集合、所述虚拟类实体的临时特征集合、所述目标实体的特征集合、所述目标实体的关系路径集合存储后作为存储数据;
将所述存储数据复用到其它数据集中;或者
将所述存储数据复用到其它目标模型的工程中。
上述技术方案中,获取数据集中的实体和属性,根据数据集中的实体生成有向关系集合,并针对有向关系集合中的任一个第一有向关系,判断该第一有向关系中的第一实体和第二实体之间是否存在相同属性,若存在相同属性,则根据该相同属性生成虚拟类实体,并根据第一有向关系和虚拟类实体生成第二有向关系,再根据包含第一有向关系和第二有向关系的有向关系集合以及目标实体,自动生成指向目标实体的关系路径组成的关系路径集合,进而生成目标实体对应的特征集合,以用于目标实体为样本的模型训练中,该方案通过实体及有向关系可以自动生成指向目标实体的多条关系路径,以用于目标实体的特征生成,生成的目标实体的特征具有可解释性,且无需人工进行调整组合,节约人力成本。
本发明实施例可以处理多个维度的数据表,基于多个维度的数据表进行特征提取,提取到特征更加全面。
此外,该方案通过建立虚拟类实体,将第一实体和第二实体进行连接,从而生成包括虚拟类实体的关系路径时,可以基于关系路径中的虚拟类实体生成目标实体的参考点特征;生成的关系路径中包括可循环路径时,可以基于生成的可循环路径,生成目标实体的交互特征;还可以基于目标实体不同时段对应的特征,生成目标实体的趋势特征。
进行属性可达的组合运算,生成的参考点特征、交互特征、趋势特征等高维特征更具有解释性。
相应的,本发明实施例还提供了一种基于路径的特征生成装置,包括:
获取模块、有向关系生成模块、路径生成模块、特征生成模块;
所述获取模块,用于获取数据集中的实体和属性;所述实体包括行为类实体和实物类实体;
所述有向关系生成模块,用于根据所述数据集中的实体生成包括多个第一有向关系的有向关系集合;所述第一有向关系包括第一实体指向第二实体,所述第一实体和所述第二实体是所述数据集中的实体的任意两个,所述第一实体和所述第二实体在所述数据集中是多对一关系;
所述有向关系生成模块,还用于针对所述有向关系集合中的任一个第一有向关系,若确定所述第一有向关系中的第一实体和所述第二实体具有相同属性,则根据所述相同属性生成虚拟类实体;根据所述虚拟类实体和所述第一有向关系生成第二有向关系,将所述第二有向关系加入至所述有向关系集合中;所述第二有向关系包括所述第一实体指向所述虚拟类实体和所述虚拟类实体指向所述第二实体;
所述路径生成模块,用于根据所述有向关系集合和目标实体,生成所述目标实体的关系路径集合;
所述特征生成模块,用于根据所述目标实体的关系路径集合,生成所述目标实体的特征集合;所述目标实体的特征集合用于以所述目标实体为样本的模型训练中。
可选的,所述路径生成模块具体用于:
将所述有向关系集合中的有向关系顺序组合,生成指向所述目标实体的多个关系路径;
将所述多个关系路径组成所述目标实体的关系路径集合。
可选的,所述路径生成模块具体用于:
若确定生成仅包括两个实物类实体且路径长度为1的第一关系路径,则根据所述两个实物类实体的相同属性,将所述第一关系路径更新为所述两个实物类实体的相同属性连接所述两个实物类实体的路径长度为2的第二关系路径;
其中,所述路径长度指关系路径内有向关系的个数。
可选的,所述特征生成模块具体用于:
以路径长度递增的顺序,根据所述关系路径集合中各关系路径生成所述关系路径对应的所述目标实体的特征集合,并记录各个特征对应的属性;所述路径长度指关系路径内有向关系的个数;
其中,所述根据关系路径生成所述关系路径对应的所述目标实体的特征集合,包括:
以递归的形式生成指向除所述目标实体外的其余实体的子关系路径;针对每条子关系路径,根据所述其余实体在所述数据集中的数据,确定所述其余实体的临时特征;所述其余实体包括实物类实体和虚拟类实体;
根据所述其余实体的临时特征及所述关系路径,依次进行聚合运算操作和组合运算操作,生成所述关系路径对应的所述目标实体的特征集合。
可选的,所述特征生成模块具体用于:
根据所述其余实体的临时特征及所述关系路径,进行属性可达的组合运算操作;所述属性可达指在确定两个临时特征对应的属性相同或其中一个临时特征为计数、比率属性时,可以对所述两个临时特征进行组合运算。
可选的,所述其余实体为虚拟类实体且所述虚拟类实体指向所述目标实体;
所述特征生成模块还用于:
在确定所述其余实体的临时特征之后,根据所述虚拟类实体的临时特征和已生成的所述关系路径对应的所述目标实体的特征集合,进行属性可达的组合运算操作,确定所述目标实体的参考点特征。
可选的,所述关系路径集合中包括可循环路径;所述可循环路径中出现至少两次所述目标实体;
所述特征生成模块具体用于:
根据所述可循环路径中的第一子关系路径,生成所述可循环路径下的其余实体的临时特征;所述第一子关系路径是所述可循环路径中包含所述目标实体指向其余实体的子关系路径;
根据所述可循环路径下的其余实体的临时特征,结合所述可循环路径中的第二子关系路径,生成所述目标实体的交互特征;所述第二子关系路径是包含所述其余实体指向所述目标实体的子关系路径。
可选的,所述特征生成模块具体用于:
针对所述目标实体在第一时间段的特征和所述目标实体在第二时间段的特征,在所述第一时间段和第二时间段的两两特征之间满足属性可达时,进行组合运算,确定所述目标实体的趋势特征。
可选的,所述装置还包括存储模块;
所述存储模块用于在所述生成所述目标实体的特征集合之后,将实体集合、所述有向关系集合、所述虚拟类实体的临时特征集合、所述目标实体的特征集合、所述目标实体的关系路径集合存储后作为存储数据;将所述存储数据复用到其它数据集中;或者将所述存储数据复用到其它目标模型的工程中。
相应的,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述基于路径的特征生成方法。
相应的,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述基于路径的特征生成方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于路径的特征生成方法的流程示意图;
图2(a)为本发明实施例提供的第一种有向关系图;
图2(b)为本发明实施例提供的第二种有向关系图;
图3为本发明实施例提供的一种确定目标实体的特征集合的流程示意图;
图4为本发明实施例提供的一种确定目标实体的交互特征的流程示意图;
图5为本发明实施例提供的一种复用特征工程的流程示意图;
图6(a)为本发明实施例提供的第三种有向关系图;
图6(b)为本发明实施例提供的第四种有向关系图;
图7为本发明实施例提供的一种基于路径的特征生成装置的结构示意图;
图8为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示例性的示出了本发明实施例提供的一种基于路径的特征生成方法的流程,该流程可以由基于路径的特征生成装置执行。
如图1所示,该流程具体包括:
步骤101,获取数据集中的实体和属性。
获取的数据集中包括至少一份结构化数据表,示例性的,数据集中包括交
易流水表、商户表、客户表,分别如表1、表2、表3所示。
表1 交易流水表
Figure 972058DEST_PATH_IMAGE001
表2 商户表
Figure 951515DEST_PATH_IMAGE002
表3 客户表
Figure 527990DEST_PATH_IMAGE003
根据数据集主键确定实体,即根据各个数据表的ID主键确定实体,实体可以包括行为类实体和实物类实体;根据数据集非主键数据的数据的单位确定属性,即根据各个数据表的每列的单位确定属性。
以表2为例,可以根据ID主键确定出实物类实体,即商户实体;根据每列的单位确定属性,即品类和城市。由表1、表2、表3可以确定出实物类实体包括商户实体和客户实体,行为类实体包括交易实体。
本发明实施例中,在确定属性时,数据表中除了元、次等计量单位为属性外,品类、城市也为属性。此外,获取到的数据集中可能存在参数表,该参数表用于确定虚拟类实体,参数表中不包含实物类实体。
在确定出数据集中的实体和属性之后,可以根据如表4所示的属性表确定出的属性定义,该属性表可以用于确定关联数据集中实体(包括行为类实体和实物类实体)的虚拟类实体。由表4可以确定出虚拟类实体包括时间、金额、性别、城市、品类。
表4 属性表
Figure 985516DEST_PATH_IMAGE004
本发明实施例中,可以对获取到的数据集先进行预处理,预处理方式包括但不限于:缺失值处理、异常值处理、数值编码、独热编码。
步骤102,根据数据集中的实体生成有向关系集合。
根据数据集中实体之间的对应关系,确定实体之间的第一有向关系,其中,可以将具有对应关系的两个实体定义为第一实体和第二实体,且第一实体和第二实体在数据集中是多对一关系时,第一有向关系为第一实体指向第二实体。第一实体和第二实体是数据集中的实体的任意两个。在根据数据集确定出多个第一有向关系之后,可以将多个第一有向关系组成有向关系集合。
本发明实施例中,第一实体和第二实体可以是不同的实物类实体,或一个行为类实体和一个实物类实体。
具体可以有以下两种情况:
当第一实体和第二实体为不同的实物类实体时,若确定两个实物类实体中的第一个实物类实体与第二个实物类实体之间存在多对一关系,则将该第一个实物类实体指向该第二个实物类实体,此时,第一实体即第一个实物类实体,第二实体即第二个实物类实体;若确定两个行为类实体中的第一个实物类实体与第二个实物类实体之间存在一对多关系,则将该第二个实物类实体指向该第一个实物类实体,此时,第一实体即第二个实物类实体,第二实体即第一个实物类实体。
当第一实体和第二实体为一个行为类实体和一个实物类实体时,若确定行为类实体与实物类实体之间存在多对一关系,则将行为类实体指向实物类实体,此时,第一实体即行为类实体,第二实体即实物类实体;若确定行为类实体与实物类实体之间存在一对多关系,则将实物类实体指向行为类实体,此时,第一实体即实物类实体,第二实体即行为类实体。
需要说明的是,如果获取的数据集中包括参数表,可以根据获取的参数表确定出虚拟类实体,此时,还可以有如下一种情况:
当第一实体和第二实体为一个行为类实体和一个虚拟类实体时,若确定行为类实体与虚拟类实体之间存在多对一关系,则将行为类实体指向虚拟类实体,此时,第一实体即行为类实体,第二实体即虚拟类实体;若确定行为类实体与虚拟类实体之间存在一对多关系,则将虚拟类实体指向行为类实体,此时,第一实体即虚拟类实体,第二实体即行为类实体。
如表1至表3示出的例子中,一个客户可以进行多次交易动作,则客户实体是交易实体的父节点,二者之间的有向关系是交易实体指向客户实体;一个商户可以进行多次交易动作,则商户实体是交易实体的父节点,二者之的有向关系是交易实体指向商户实体。同理,客户实体与商户实体在交易实体中存在多对一关系,将客户实体指向商户实体,商户实体与客户实体在交易实体中存在多对一关系,将商户实体指向客户实体,最后可以生成如图2(a)所示的有向关系图。
步骤103,针对有向关系集合中的任一个第一有向关系,若确定第一有向关系中的第一实体和第二实体具有相同属性,则根据相同属性生成虚拟类实体;根据虚拟类实体和第一有向关系生成第二有向关系,将第二有向关系加入至有向关系集合中。
针对任一个第一有向关系,获取该第一有向关系中第一实体和第二实体各自的属性,若确定第一实体和第二实体具有相同属性,则根据相同属性生成虚拟类实体,并将该虚拟类实体连接该第一实体和第二实体,相当于,将第一实体指向虚拟类实体和虚拟类实体指向第二实体,将该有向关系确定为第二有向关系。示例性的,如图2(a)中,交易实体中包括金额属性,指示当前交易行为的交易金额,客户实体中同样包括金额属性,指示客户的可用额度,可以将该金额属性作为交易实体和客户实体的相同属性,并将该金额属性作为虚拟类实体用于关联行为类实体和实物类实体,具体的,第一有向关系是交易实体指向客户实体,则根据金额属性和第一有向关系生成的第二有向关系为交易实体指向金额属性,且金额属性指向客户实体,生成的第二有向关系可以如图2(b)所示。
可以根据图2(a)示出的多个第一有向关系,生成如图2(b)所示的多个第二有向关系,虚线即表示生成的第二有向关系。如图2(b)中,交易实体和客户实体之间通过金额属性连接,交易实体指向金额属性且金额属性指向客户实体;客户实体与商户实体之间通过城市连接,商户实体指向城市且城市指向客户实体。图2(b)仅仅是示例性的示出了生成的第二有向关系,本发明实施例中可以根据第一有向关系和虚拟类实体生成多个第二有向关系。
此外,还可以以实物类实体相关的属性、额外的参数表或模型构建虚拟类实体,比如,以客户为主键,在交易实体中添加一列客户年龄,则交易实体与客户实体的相同属性增加了年龄一项,并以年龄属性为虚拟类实体。
步骤104,根据有向关系集合和目标实体,生成目标实体的关系路径集合。
本发明实施例中,将有向关系集合中的有向关系顺序组合,生成指向目标实体的多个关系路径,将多个关系路径组成目标实体的关系路径集合。
目标实体是预先定义的,目标实体可以有单目标实体和多目标实体,单目标实体可以包括客户实体、商户实体,比如,对于信用风控为目的的模型来说,可以采用客户实体为目标实体,表示为(客户),多目标实体可以包括客户—商户实体、商户—客户实体,比如,对于营销推荐为目的的模型来说,可以采用商户—客户实体为目标实体,表示为(商户,客户)。
在生成指向目标实体的多个关系路径时,可以是以目标实体为关系路径的终点,遍历所有可能的关系路径并去重后生成关系路径集合,如图2(b)示出的有向关系中,以客户实体为目标实体,即以客户实体为终点,遍历如图2(b)中的所有可能的关系路径,得到如下的关系路径集合。
关系路径(1):客户
关系路径(2):交易→客户
关系路径(3):商户→客户
关系路径(4):交易→金额→客户
关系路径(5):交易→城市→客户
关系路径(6):交易→商户→客户
关系路径(7):交易→客户→商户→客户
……
在生成上述关系路径集合时,可以规定生成的关系路径的路径长度,以限制关系路径集合的大小,规定的长度越长,则生成的关系路径集合越大,反之,则生成的关系路径集合越小。其中,关系路径的路径长度用于指示关系路径内有向关系的个数,如关系路径(3)中存在有向关系1个,则路径长度为1;关系路径(4)中存在有向关系2个,则路径长度为2。
需要说明的是,在生成多条关系路径过程中,若确定生成仅包括两个实物类实体且路径长度为1的第一关系路径,则根据两个实物类实体的相同属性,将第一关系路径更新为两个实物类实体的相同属性连接两个实物类实体的路径长度为2的第二关系路径。如上述关系路径集合中的第(3)条关系路径,即本来生成的关系路径是商户→客户,该关系路径是只包括商户实体和客户实体(两个实物类实体)且路径长度为1的第一关系路径,所以可以将商户实体和客户实体之间存在的共同属性如城市来连接两个实体类实体,即生成的第二关系路径为商户→城市→客户,并将该商户→城市→客户更新至原来的商户→客户上。相当于,在确定生成仅包括两个实物类实体且路径长度为1的第一关系路径时,可以将两个实物类实体的相同属性作为虚拟类实体,并根据该虚拟类实体和两个实物类实体生成第二关系路径,第二关系路径的指向与第一关系路径的指向相同,如第一关系路径中第一实物类实体指向第二实物类实体,则生成的第二关系路径中第一实物类实体指向虚拟类实体且虚拟类实体向第二实物类实体,进而将第二关系路径更新至第一关系路径。
步骤105,根据目标实体的关系路径集合,生成目标实体的特征集合。
按照路径长度递增的顺序,根据关系路径集合中各关系路径生成关系路径对应的目标实体的特征集合,并记录各个特征对应的属性。
上述生成的目标实体的特征集合中,按照路径长度递增的顺序,根据各关系路径生成关系路径对应的目标实体的特征集合,具体的:
步骤201,针对路径长度为0的关系路径,可以根据关系路径(1)生成对应的目标实体的特征集合;
步骤202,针对路径长度为1的关系路径,根据关系路径(2)生成对应的目标实体的特征集合,根据关系路径(3)生成对应的目标实体的特征集合;
步骤203,针对路径长度为2的关系路径,根据关系路径(4)生成对应的目标实体的特征集合,根据关系路径(5)生成对应的目标实体的特征集合,根据关系路径(6)生成对应的目标实体的特征集合;
步骤204,针对路径长度为3的关系路径,根据关系路径(7)生成对应的目标实体的特征集合;
……
其中,针对上述任一个关系路径,在确定该关系路径对应的目标实体的特征集合时,可以根据如图3示出的流程图确定。
步骤301,以递归的形式生成指向除目标实体外的其余实体的子关系路径。
步骤302,针对每条子关系路径,根据其余实体在数据集中的数据,确定其余实体的临时特征。
如路径(7)“交易→客户→商户→客户”中,最后一个客户为目标实体,递归形式下,先反推生成交易→客户→商户的特征,进一步递归,生成交易→客户的特征。
本发明实施例中,其余实体指的是所有实体中除目标实体以外的实体,可以包括实物类实体和虚拟类实体,也就是说,该其余实体可以是实物类实体也可以是虚拟类实体。当该其余实体为虚拟类实体且虚拟类实体指向目标实体时,可以确定出虚拟类实体的临时特征,并基于虚拟类实体的临时特征和已生成的关系路径对应的目标实体的特征集合,进行属性可达的组合运算操作,确定目标实体的参考点特征。此处,属性可达指的是在确定两个临时特征对应的属性相同或其中一个临时特征对应的属性为计数、比率属性时,可以对两个临时特征进行组合运算。
由于本发明实施例是以路径长度递增的顺序,根据关系路径集合中各关系路径生成关系路径对应的目标实体的特征集合,所以在确定目标实体的参考点特征时,可以是基于虚拟类实体的临时特征和已生成的关系路径对应的目标实体的特征集合进行组合运算确定。
举例来说,关系路径(5)中“交易→城市→客户”,首先生成城市(虚拟类实体)的临时特征,客户之前也已经根据关系路径(1)中“交易→客户”生成了客户的部分特征,在关系路径(5)“交易→城市→客户”下,会将城市的临时特征关联到该城市的所有客户特征下,可用城市特征“该城市下的2月份交易次数”和客户特征“该客户的最经常消费的3个城市”做聚合运算操作和组合运算操作,求出该客户最经常交易的城市的交易平均次数,即交易体量水平。具体实现中,通过聚合运算操作将城市的临时特征“该城市下的2月份交易次数(f1=event[month=2].groupby(city).count())”关联(join)至客户的特征“该客户的最经常消费的3个城市(f2=event[month=2].groupby(custr).top3_city)”中,求出该客户最经常交易的城市的交易平均次数,即交易体量水平(f2.join(f1,on=city).mean())。
此外,在确定参考点特征时,不仅可以确定目标实体的参考点特征,还可以确定非目标实体的参考点特征,本发明实施例的本质在于,根据指向虚拟类实体的实体在数据集中的数据,确定虚拟类实体的特征表现,即虚拟类实体的临时特征,将虚拟类实体的临时特征作为参考,进一步加工,生成虚拟类实体指向的实体的特征,根据虚拟类实体的临时特征与虚拟类实体指向的实体的原始特征得到的虚拟类实体指向的实体的加工特征,该虚拟类实体指向的实体的加工特征即为参考点特征,该虚拟类实体指向的实体可以是目标实体也可以不是目标实体。
步骤303,根据其余实体的临时特征及关系路径,依次进行聚合运算操作和组合运算操作,生成关系路径对应的目标实体的特征集合。
本步骤中,在根据其余实体的临时特征及关系路径进行组合运算操作时,可以是进行属性可达的组合运算操作,属性可达指在确定两个临时特征对应的属性相同或其中一个临时特征为计数、比率属性时,可以对两个临时特征进行组合运算。本发明实施例中,采用属性可达原则生成的参考点特征、交互特征、趋势特征等高维特征更具有解释性。
对于聚合运算操作,离散型特征可做的操作有TOP N、频率计数、最大最小值等;连续型特征可做的操作有最大最小值、均值、方差等。两者都可加入时间窗等条件。聚合运算得到的特征结果,除计数外,其余属性不变。
对于组合运算操作,连续型或计数类特征的线性运算需符合属性可达的要求,计数特征可与任意连续型特征进行线性运算;同种类型的离散型特征可以进行逻辑运算(是否相等),不同类型的离散型属性可以进行逻辑运算(交并)。通过组合运算得到的特征结果,除计数和比率外,其余属性不变。
需要说明的是,本发明实施例中,还可以对连续型特征进行离散化处理,如进行等距、等频率分桶操作,以得到对应的离散型特征。
通过定义计算操作集合,如求最大值、最小值、均值、方差、频率计数,可限制特征生成的数量。
预先定义目标变量,可以通过各单特征/组合特征对目标变量的区分情况,启发式地进行路径扩展或路径剪枝。可使用的指标包括不限于模型重要性、IV、增益等。
可对特征结果集合进行降维,其方式包括不限于利用目标变量进行评价,选择显著特征、PCA降维、哈希等。
一种实现方式中,关系路径集合中可以包括可循环路径,该可循环路径中出现至少两次目标实体,在根据目标实体的关系路径集合,生成目标实体的特征集合时,可以根据目标实体的可循环路径,生成目标实体的交互特征。具体的,如图4示出的流程图中:
步骤401,根据可循环路径中的第一子关系路径,生成可循环路径下的其余实体的临时特征。
步骤402,根据可循环路径下的其余实体的临时特征,结合可循环路径中的第二子关系路径,生成目标实体的交互特征。
其中,可循环路径中包括多个子关系路径,可循环路径中包含目标实体指向其余实体的子关系路径为第一子关系路径,可循环路径中包含其余实体指向目标实体的子关系路径为第二子关系路径。
举例来说,路径(7)中“交易→客户→商户→客户”,根据第一子关系路径“交易→客户→商户”计算出商户平均风险(以与该商户有交易的客户上一期平均风险确定),根据第二子关系路径“交易→商户→客户”计算出客户所交易商户,并计算出客户所有交易商户的平均风险,如以***套现为目的的持卡人,其交易商户中存在主营业务为套现的商户,而这种商户的客户都是以套现为目的的客户。通过抓取已知套现客户所在的商户,即可发现潜在的套现客户,即为目标实体的交互特征。交互特征的其余例子还有:根据第一子关系路径“交易→客户→商户”计算出商户的近1个月的客流量,根据第二子关系路径“交易→商户→客户”计算出客户近1个月在最经常交易的商户的交易次数,将两者相除得到比率特征,这个特征可显示出客户是否是该商户的忠实客户。
另一种实现方式中,可以针对目标实体在第一时间段的特征和目标实体在第二时间段的特征,在第一时间段和第二时间段的两两特征之间满足属性可达时,进行组合运算,确定目标实体的趋势特征。
举例来说,路径(2)中“交易→客户”会自动生成一系列特征,比如根据聚合运算分别得到客户2月份的交易次数(event[month=2].groupby(custr).count())和客户3月份的交易次数(event[month=3].groupby(custr).count()),由于这两个特征都是计数类(count)属性,根据属性可达的标准,可以进行组合运算得到客户2月份和3月份的交易次数之差,即客户的交易次数的趋势特征,用于表明客户3月份的交易次数是否比2月份的交易次数变多了。
基于上述例子继续说明,根据上述多条关系路径,自动生成以客户实体为单位的特征,具体的如下:
关系路径(1)生成的特征包括:性别、城市、额度等;
关系路径(2)生成的特征包括:客户近一段时间的消费次数,客户最近一次交易的时间,客户近一段时间交易的频率等;
关系路径(3)生成的特征包括:客户所在城市的商户数量等;
关系路径(4)生成的特征包括:客户近一段时间的平均交易金额、客户近一段时间的最小交易金额等;
关系路径(5)生成的特征包括:客户近一段时间交易过的城市数量,客户最近一次交易的城市等;
关系路径(6)生成的特征包括:客户近一段时间交易过的商户数量,客户最近一次交易的商户等;
关系路径(7)生成的特征包括:客户最经常交易的商户近一段时间内的平均客流量,客户所交易商户的平均风险等。
本发明实施例中,可以将确定出的目标实体的特征集合用于以目标实体为样本的模型训练中,此外,在生成目标实体的特征集合之后,还可以将获取到的实体、特征用于其它数据集或者目标模型的工程中。如图5示出的流程图中,该流程可以包括:
步骤501,将实体集合、有向关系集合、虚拟类实体的临时特征集合、目标实体的特征集合、目标实体的关系路径集合存储后作为存储数据;
步骤502,将存储数据复用到其它数据集中,或者将存储数据复用到其它目标模型的工程中。
本发明实施例还可以适用于多目标实体情况,以商户—客户实体为多目标实体,该目标实体的特征集合可包含以商户为目标实体的特征集合、以客户为目标实体的特征集合以及以商户—客户为多目标实体的特征集合。比如该商户—客户实体路径长度为1的特征有客户性别、客户城市、商户城市、商户额度,商户—客户实体与交易实体的有向关系是交易实体指向商户—客户实体,可以如图6(a)所示;商户—客户实体与交易实体的共同属性是城市,则可以根据城市生成虚拟类实体,并根据城市以及商户—客户实体与交易实体的对应关系,生成新的有向关系,即交易实体指向城市且城市指向商户—客户实体,可以如图6(b)所示。进一步的根据如图6(b)的有向关系,生成关系路径有交易→商户—客户、交易→城市→商户—客户;生成的目标实体的特征有客户在商户的平均交易金额,客户在多少个城市的商户中发生过交易等。
上述实施例中,获取数据集中的实体和属性,根据数据集中的实体生成有向关系集合,并针对有向关系集合中的任一个第一有向关系,判断该第一有向关系中的第一实体和第二实体之间是否存在相同属性,若存在相同属性,则根据该相同属性生成虚拟类实体,并根据第一有向关系和虚拟类实体生成第二有向关系,再根据包含第一有向关系和第二有向关系的有向关系集合以及目标实体,自动生成指向目标实体的关系路径组成的关系路径集合,进而生成目标实体对应的特征集合,以用于目标实体为样本的模型训练中,该方案通过实体及有向关系可以自动生成指向目标实体的多条关系路径,以用于目标实体的特征生成,生成的目标实体的特征具有可解释性,无需人工进行调整组合,节约人力成本。
本发明实施例可以处理多个维度的数据表,基于多个维度的数据表进行特征提取,提取到特征更加全面。
此外,该方案通过建立虚拟类实体,将第一实体和第二实体进行连接,从而生成包括虚拟类实体的关系路径时,可以基于关系路径中的虚拟类实体生成目标实体的参考点特征;生成的关系路径中包括可循环路径时,可以基于生成的可循环路径,生成目标实体的交互特征;还可以基于目标实体不同时段对应的特征,生成目标实体的趋势特征。
本发明实施例进行属性可达的组合运算,生成的参考点特征、交互特征、趋势特征等高维特征更具有解释性。
基于同一发明构思,图7示例性的示出了本发明实施例提供的一种基于路径的特征生成装置的结构,该装置可以执行基于路径的特征生成方法的流程。
该装置包括:
获取模块701、有向关系生成模块702、路径生成模块703、特征生成模块704;
所述获取模块701,用于获取数据集中的实体和属性;所述实体包括行为类实体和实物类实体;
所述有向关系生成模块702,用于根据所述数据集中的实体生成包括多个第一有向关系的有向关系集合;所述第一有向关系包括第一实体指向第二实体,所述第一实体和所述第二实体是所述数据集中的实体的任意两个,所述第一实体和所述第二实体在所述数据集中是多对一关系;
所述有向关系生成模块702,还用于针对所述有向关系集合中的任一个第一有向关系,若确定所述第一有向关系中的第一实体和所述第二实体具有相同属性,则根据所述相同属性生成虚拟类实体;根据所述虚拟类实体和所述第一有向关系生成第二有向关系,将所述第二有向关系加入至所述有向关系集合中;所述第二有向关系包括所述第一实体指向所述虚拟类实体和所述虚拟类实体指向所述第二实体;
所述路径生成模块703,用于根据所述有向关系集合和目标实体,生成所述目标实体的关系路径集合;
所述特征生成模块704,用于根据所述目标实体的关系路径集合,生成所述目标实体的特征集合;所述目标实体的特征集合用于以所述目标实体为样本的模型训练中。
可选的,所述路径生成模块703具体用于:
将所述有向关系集合中的有向关系顺序组合,生成指向所述目标实体的多个关系路径;
将所述多个关系路径组成所述目标实体的关系路径集合。
可选的,所述路径生成模块703具体用于:
若确定生成仅包括两个实物类实体且路径长度为1的第一关系路径,则根据所述两个实物类实体的相同属性,将所述第一关系路径更新为所述两个实物类实体的相同属性连接所述两个实物类实体的路径长度为2的第二关系路径;
其中,所述路径长度指关系路径内有向关系的个数。
可选的,所述特征生成模块704具体用于:
以路径长度递增的顺序,根据所述关系路径集合中各关系路径生成所述关系路径对应的所述目标实体的特征集合,并记录各个特征对应的属性;所述路径长度指关系路径内有向关系的个数;
其中,所述根据关系路径生成所述关系路径对应的所述目标实体的特征集合,包括:
以递归的形式生成指向除所述目标实体外的其余实体的子关系路径;针对每条子关系路径,根据所述其余实体在所述数据集中的数据,确定所述其余实体的临时特征;所述其余实体包括实物类实体和虚拟类实体;
根据所述其余实体的临时特征及所述关系路径,依次进行聚合运算操作和组合运算操作,生成所述关系路径对应的所述目标实体的特征集合。
可选的,所述特征生成模块704具体用于:
根据所述其余实体的临时特征及所述关系路径,进行属性可达的组合运算操作;所述属性可达指在确定两个临时特征对应的属性相同或其中一个临时特征为计数、比率属性时,可以对所述两个临时特征进行组合运算。
可选的,所述其余实体为虚拟类实体且所述虚拟类实体指向所述目标实体;
所述特征生成模块704还用于:
在确定所述其余实体的临时特征之后,根据所述虚拟类实体的临时特征和已生成的所述关系路径对应的所述目标实体的特征集合,进行属性可达的组合运算操作,确定所述目标实体的参考点特征。
可选的,所述关系路径集合中包括可循环路径;所述可循环路径中出现至少两次所述目标实体;
所述特征生成模块704具体用于:
根据所述可循环路径中的第一子关系路径,生成所述可循环路径下的其余实体的临时特征;所述第一子关系路径是所述可循环路径中包含所述目标实体指向其余实体的子关系路径;
根据所述可循环路径下的其余实体的临时特征,结合所述可循环路径中的第二子关系路径,生成所述目标实体的交互特征;所述第二子关系路径是包含所述其余实体指向所述目标实体的子关系路径。
可选的,所述特征生成模块704具体用于:
针对所述目标实体在第一时间段的特征和所述目标实体在第二时间段的特征,在所述第一时间段和第二时间段的两两特征之间满足属性可达时,进行组合运算,确定所述目标实体的趋势特征。
可选的,所述装置还包括存储模块705;
所述存储模块705用于在所述生成所述目标实体的特征集合之后,将实体集合、所述有向关系集合、所述虚拟类实体的临时特征集合、所述目标实体的特征集合、所述目标实体的关系路径集合存储后作为存储数据;将所述存储数据复用到其它数据集中;或者将所述存储数据复用到其它目标模型的工程中。
基于同一发明构思,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述基于路径的特征生成方法。
基于同一发明构思,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述基于路径的特征生成方法。
基于相同的技术构思,本发明实施例提供了一种服务器,用于执行上述基于路径的特征生成方法,如图8所示,包括至少一个处理器801,以及与至少一个处理器连接的存储器802,本发明实施例中不限定处理器801与存储器802之间的具体连接介质,图8中处理器801和存储器802之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本发明实施例中,存储器802存储有可被至少一个处理器801执行的指令,至少一个处理器801通过执行存储器802存储的指令,可以执行前述的交互式运维的方法中所包括的步骤。
其中,处理器801是服务器的控制中心,可以利用各种接口和线路连接服务器的各个部分,通过运行或执行存储在存储器802内的指令以及调用存储在存储器802内的数据,从而实现数据处理。可选的,处理器801可包括一个或多个处理单元,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理运维人员下发的指令。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。在一些实施例中,处理器801和存储器802可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器801可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合交互式运维的实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器802作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器802可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器802是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本发明实施例中的存储器802还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (11)

1.一种基于路径的特征生成方法,其特征在于,包括:
获取数据集中的实体和属性;所述实体包括行为类实体和实物类实体;
根据所述数据集中的实体生成包括多个第一有向关系的有向关系集合;所述第一有向关系包括第一实体指向第二实体,所述第一实体和所述第二实体是所述数据集中的实体的任意两个,所述第一实体和所述第二实体在所述数据集中是多对一关系;
针对所述有向关系集合中的任一个第一有向关系,若确定所述第一有向关系中的第一实体和所述第二实体具有相同属性,则根据所述相同属性生成虚拟类实体;根据所述虚拟类实体和所述第一有向关系生成第二有向关系,将所述第二有向关系加入至所述有向关系集合中;所述第二有向关系包括所述第一实体指向所述虚拟类实体和所述虚拟类实体指向所述第二实体;
根据所述有向关系集合和目标实体,生成所述目标实体的关系路径集合;
根据所述目标实体的关系路径集合,生成所述目标实体的特征集合;所述目标实体的特征集合用于以所述目标实体为样本的模型训练中。
2.如权利要求1所述的方法,其特征在于,所述根据所述有向关系集合和目标实体,生成所述目标实体的关系路径集合,包括:
将所述有向关系集合中的有向关系顺序组合,生成指向所述目标实体的多个关系路径;
将所述多个关系路径组成所述目标实体的关系路径集合。
3.如权利要求2所述的方法,其特征在于,所述将所述有向关系集合中的有向关系顺序组合,生成指向所述目标实体的多个关系路径,包括:
若确定生成仅包括两个实物类实体且路径长度为1的第一关系路径,则根据所述两个实物类实体的相同属性,将所述第一关系路径更新为所述两个实物类实体的相同属性连接所述两个实物类实体的路径长度为2的第二关系路径;
其中,所述路径长度指关系路径内有向关系的个数。
4.如权利要求1所述的方法,其特征在于,所述根据所述目标实体的关系路径集合,生成所述目标实体的特征集合,包括:
以路径长度递增的顺序,根据所述关系路径集合中各关系路径生成所述关系路径对应的所述目标实体的特征集合,并记录各个特征对应的属性;所述路径长度指关系路径内有向关系的个数;其中,所述根据关系路径生成所述关系路径对应的所述目标实体的特征集合,包括:
以递归的形式生成指向除所述目标实体外的其余实体的子关系路径;针对每条子关系路径,根据所述其余实体在所述数据集中的数据,确定所述其余实体的临时特征;所述其余实体包括实物类实体和虚拟类实体;
根据所述其余实体的临时特征及所述关系路径,依次进行聚合运算操作和组合运算操作,生成所述关系路径对应的所述目标实体的特征集合。
5.如权利要求4所述的方法,其特征在于,所述根据所述其余实体的临时特征及所述关系路径,进行组合运算操作,包括:
根据所述其余实体的临时特征及所述关系路径,进行属性可达的组合运算操作;所述属性可达指在确定两个临时特征对应的属性相同或其中一个临时特征为计数、比率属性时,可以对所述两个临时特征进行组合运算。
6.如权利要求5所述的方法,其特征在于,所述其余实体为虚拟类实体且所述虚拟类实体指向所述目标实体;
所述确定所述其余实体的临时特征之后,包括:
根据所述虚拟类实体的临时特征和已生成的所述关系路径对应的所述目标实体的特征集合,进行属性可达的组合运算操作,确定所述目标实体的参考点特征。
7.如权利要求4所述的方法,其特征在于,所述关系路径集合中包括可循环路径;所述可循环路径中出现至少两次所述目标实体;
所述根据所述目标实体的关系路径集合,生成所述目标实体的特征集合,包括:
根据所述可循环路径中的第一子关系路径,生成所述可循环路径下的其余实体的临时特征;所述第一子关系路径是所述可循环路径中包含所述目标实体指向其余实体的子关系路径;
根据所述可循环路径下的其余实体的临时特征,结合所述可循环路径中的第二子关系路径,生成所述目标实体的交互特征;所述第二子关系路径是包含所述其余实体指向所述目标实体的子关系路径。
8.如权利要求4所述的方法,其特征在于,所述根据所述目标实体的关系路径集合,生成所述目标实体的特征集合,包括:
针对所述目标实体在第一时间段的特征和所述目标实体在第二时间段的特征,在所述第一时间段和第二时间段的两两特征之间满足属性可达时,进行组合运算,确定所述目标实体的趋势特征。
9.如权利要求1所述的方法,其特征在于,在所述生成所述目标实体的特征集合之后,还包括:
将实体集合、所述有向关系集合、所述虚拟类实体的临时特征集合、所述目标实体的特征集合、所述目标实体的关系路径集合存储后作为存储数据;
将所述存储数据复用到其它数据集中;或者
将所述存储数据复用到其它目标模型的工程中。
10.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至9任一项所述的方法。
11.一种计算机可读非易失性存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行如权利要求1至9任一项所述的方法。
CN201911254655.0A 2019-12-10 2019-12-10 一种基于路径的特征生成方法及装置 Active CN110688433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911254655.0A CN110688433B (zh) 2019-12-10 2019-12-10 一种基于路径的特征生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911254655.0A CN110688433B (zh) 2019-12-10 2019-12-10 一种基于路径的特征生成方法及装置

Publications (2)

Publication Number Publication Date
CN110688433A true CN110688433A (zh) 2020-01-14
CN110688433B CN110688433B (zh) 2020-04-21

Family

ID=69117781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911254655.0A Active CN110688433B (zh) 2019-12-10 2019-12-10 一种基于路径的特征生成方法及装置

Country Status (1)

Country Link
CN (1) CN110688433B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418520A (zh) * 2020-11-22 2021-02-26 同济大学 一种基于联邦学习的***交易风险预测方法
CN113688191A (zh) * 2021-08-27 2021-11-23 阿里巴巴(中国)有限公司 特征数据生成方法、电子设备、存储介质及程序产品
CN113792800A (zh) * 2021-09-16 2021-12-14 创新奇智(重庆)科技有限公司 特征生成方法及装置、电子设备、存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104662535A (zh) * 2012-07-24 2015-05-27 起元科技有限公司 数据模型中的实体映射
US20150261837A1 (en) * 2012-08-29 2015-09-17 Vinay Avasthi Querying Structured And Unstructured Databases
CN105938479A (zh) * 2016-03-31 2016-09-14 华南师范大学 一种关系表与非关系表的结构转换方法
CN106447066A (zh) * 2016-06-01 2017-02-22 上海坤士合生信息科技有限公司 一种大数据的特征提取方法和装置
CN106445988A (zh) * 2016-06-01 2017-02-22 上海坤士合生信息科技有限公司 一种大数据的智能处理方法和***
US20170185674A1 (en) * 2014-04-02 2017-06-29 Semantic Technologies Pty Ltd Ontology mapping method and apparatus
CN109919608A (zh) * 2018-11-28 2019-06-21 阿里巴巴集团控股有限公司 一种高危交易主体的识别方法、装置及服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104662535A (zh) * 2012-07-24 2015-05-27 起元科技有限公司 数据模型中的实体映射
US20150261837A1 (en) * 2012-08-29 2015-09-17 Vinay Avasthi Querying Structured And Unstructured Databases
US20170185674A1 (en) * 2014-04-02 2017-06-29 Semantic Technologies Pty Ltd Ontology mapping method and apparatus
CN105938479A (zh) * 2016-03-31 2016-09-14 华南师范大学 一种关系表与非关系表的结构转换方法
CN106447066A (zh) * 2016-06-01 2017-02-22 上海坤士合生信息科技有限公司 一种大数据的特征提取方法和装置
CN106445988A (zh) * 2016-06-01 2017-02-22 上海坤士合生信息科技有限公司 一种大数据的智能处理方法和***
CN109919608A (zh) * 2018-11-28 2019-06-21 阿里巴巴集团控股有限公司 一种高危交易主体的识别方法、装置及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
庄严等: "知识库实体对齐技术综述", 《计算机研究与发展》 *
林海伦等: "面向网络大数据的知识融合方法综述", 《计算机学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418520A (zh) * 2020-11-22 2021-02-26 同济大学 一种基于联邦学习的***交易风险预测方法
CN112418520B (zh) * 2020-11-22 2022-09-20 同济大学 一种基于联邦学习的***交易风险预测方法
CN113688191A (zh) * 2021-08-27 2021-11-23 阿里巴巴(中国)有限公司 特征数据生成方法、电子设备、存储介质及程序产品
CN113688191B (zh) * 2021-08-27 2023-08-18 阿里巴巴(中国)有限公司 特征数据生成方法、电子设备、存储介质
CN113792800A (zh) * 2021-09-16 2021-12-14 创新奇智(重庆)科技有限公司 特征生成方法及装置、电子设备、存储介质
CN113792800B (zh) * 2021-09-16 2023-12-19 创新奇智(重庆)科技有限公司 特征生成方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN110688433B (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN110688433B (zh) 一种基于路径的特征生成方法及装置
US9053171B2 (en) Clustering data points
US9892026B2 (en) Data records selection
US10614073B2 (en) System and method for using data incident based modeling and prediction
CN107203774A (zh) 对数据的归属类别进行预测的方法及装置
CN111967521B (zh) 跨境活跃用户识别方法及装置
CN111242356A (zh) 一种财富走势预测方法、装置、设备及存储介质
Phillips et al. Testing the martingale hypothesis
JP2016206983A (ja) ローンリスク評価パラメータ算出装置、プログラム、及び方法
CN113538137A (zh) 一种基于双图谱融合计算的资金流监控方法及装置
CN107330709B (zh) 确定目标对象的方法及装置
CN106874286B (zh) 一种筛选用户特征的方法及装置
CN106815290B (zh) 一种基于图挖掘的银行卡归属的确定方法及装置
CN108537654B (zh) 客户关系网络图的渲染方法、装置、终端设备及介质
CN112950350B (zh) 一种基于机器学习的贷款产品推荐方法及***
CN114119168A (zh) 一种信息推送方法及装置
CN114117052A (zh) 一种业务数据报表的分类方法及装置
CN111709764B (zh) 多媒体内容的相关参数的确定方法、装置及存储介质
CN112950225A (zh) 一种客户类别确定方法、装置及存储介质
CN112016975A (zh) 产品筛选方法、装置、计算机设备及可读存储介质
CN112232945A (zh) 一种确定个人客户授信的方法及装置
CN111752662A (zh) 银行交易界面展示方法及装置
CN111723210A (zh) 存储数据表的方法、装置、计算机设备及可读存储介质
KR100686466B1 (ko) 자산 평가 제공 방법 및 시스템과, 수익성에 대한 안정성 분석 제공 시스템
Ribeiro et al. Simulations of the climate change and its effect on water resources in the Palma River basin, Brazil

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant