CN113688191A

CN113688191A - 特征数据生成方法、电子设备、存储介质及程序产品

Info

Publication number: CN113688191A
Application number: CN202110996469.5A
Authority: CN
Inventors: 王林; 王桐; 邓玉明
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2021-11-23
Anticipated expiration: 2041-08-27
Also published as: CN113688191B

Abstract

本申请实施例提供了一种特征数据生成方法、电子设备、计算机存储介质及程序产品，其中，所述特征数据生成方法包括：根据待生成特征数据的目标实体，从特征范式集中获取与所述目标实体对应的所有特征范式，所述特征范式用于描述基于实体关系数据的实体特征生成规则信息；按照选取策略，从获取的所有特征范式中选取特征范式，并根据选取的特征范式所描述的实体特征生成规则信息，确定特征范式对应的特征值；对所述特征值进行评估获得评估结果，并将评估结果优于历史特征值的评估结果的特征值确定为有效特征值；根据所述有效特征值和所述有效特征值对应的所述特征范式，生成所述目标实体的特征数据。通过本申请实施例，提高了特征数据的生成效率。

Description

特征数据生成方法、电子设备、存储介质及程序产品

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种特征数据生成方法、电子设备、计算机存储介质及计算机程序产品。

背景技术

特征工程是机器学习的必备环节，其通过一系列工程化的方式从原始数据中筛选出更好的数据特征，以提升模型的训练效果。

伴随着计算机技术的发展，特征工程也已发展到了自动化阶段。在目前的特征工程自动化方面，涉及两个阶段的自动化工作，包括一阶段原始特征生成(多特征表生成特征宽表)和二阶段高阶特征组合。但是，一方面，好的特征工程方案仍然需要结合专家的领域知识，通过不断探索和反复试错才能获得，这个过程约占算法研发70％以上人力成本。另一方面，目前大部分的特征工程自动化聚焦于处理二阶段高阶特征组合方向，而针对一阶段原始特征生成方向的自动化方案则少有人问津。

因此，如何提供一种较低成本的、可适用于一阶段原始特征生成的方案，成为亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供一种特征数据生成方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种特征数据生成方法，包括：根据待生成特征数据的目标实体，从特征范式集中获取与所述目标实体对应的所有特征范式，其中，所述特征范式用于描述基于实体关系数据的实体特征生成规则信息；按照选取策略，从获取的所有特征范式中选取特征范式，并根据选取的所述特征范式所描述的实体特征生成规则信息确定特征范式对应的特征值；对所述特征值进行评估获得评估结果，并将评估结果优于历史特征值的评估结果的特征值确定为有效特征值；根据所述有效特征值和所述有效特征值对应的所述特征范式，生成所述目标实体的特征数据。

根据本申请实施例的第二方面，提供了一种特征数据生成装置，包括：获取模块，用于根据待生成特征数据的目标实体，从特征范式集中获取与所述目标实体对应的所有特征范式，其中，所述特征范式用于描述基于实体关系数据的实体特征生成规则信息；第一确定模块，用于按照选取策略，从获取的所有特征范式中选取特征范式，并根据选取的所述特征范式所描述的实体特征生成规则信息确定特征范式对应的特征值；第二确定模块，用于对所述特征值进行评估获得评估结果，并将评估结果优于历史特征值的评估结果的特征值确定为有效特征值；生成模块，用于根据所述有效特征值和所述有效特征值对应的所述特征范式，生成所述目标实体的特征数据。

根据本申请实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的方法对应的操作。

根据本申请实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的方法。

根据本申请实施例的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如第一方面所述的方法对应的操作。

根据本申请实施例提供的特征数据生成方案，在生成实体对应的特征数据时，一方面，基于特征范式进行处理，该特征范式描述了基于实体关系数据生成的实体特征生成规则信息，也即，其描述了目标实体的特征数据的所有可能生成方式。由此，无需人工对实体关系数据进行组合和梳理，大大降低了特征数据生成成本，可有效适用于一阶段特征数据生成处理。另一方面，在生成特征数据时，重点考虑评估结果优于历史特征值的评估结果的特征值，即有效特征值，通过这种方式，可高效筛选出可有效表征目标实体特征的特征值和特征范式，进而高效生成目标实体的特征数据，大大提高了特征数据的生成效率，降低了生成特征数据的计算开销。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为根据本申请实施例一的一种特征数据生成方法的步骤流程图；

图1B为图1A所示实施例中的一种场景示例的示意图；

图2A为根据本申请实施例二的一种特征数据生成方法的步骤流程图；

图2B为图2A所示实施例中的一种构建出的实体关系示例图；

图2C为基于图2B所示的实体关系示例图生成实体的特征范式的示意图；

图3A为根据本申请实施例三的一种特征数据生成方法的步骤流程图；

图3B为图3A所示实施例中的一种策略更新过程示意图；

图4为根据本申请实施例四的一种特征数据生成装置的结构框图；

图5为根据本申请实施例五的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

实施例一

参照图1A，示出了根据本申请实施例一的一种特征数据生成方法的步骤流程图。

本实施例的特征数据生成方法包括以下步骤：

步骤S102：根据待生成特征数据的目标实体，从特征范式集中获取与目标实体对应的所有特征范式。

其中，所述特征范式用于描述基于实体关系数据的实体特征生成规则信息。一个目标实体可对应至少一个特征范式，每个特征范式唯一描述一种实体特征生成方式。其中，实体关系数据用于描述实体及实体间的关系，例如，可以为实体关系型数据集中的数据。

对于机器学习模型来说，需使用训练数据进行模型训练以获得可满足实际需求的模型，将原始数据加工成机器学习模型所需的训练数据，离不开特征工程环节，目前特征工程环节大部分靠人工手动完成，缺乏有效的自动化手段。本申请实施例提供的方案针对此种情况，通过自动化特征工程的方式，以期自动化生成目标实体的特征数据以作为机器学习模型的训练数据。

为此，本步骤中，在确定了待生成特征数据的目标实体后，先从预先获得的特征范式集中选取与目标实体对应的所有特征范式。因特征范式基于原始实体关系数据生成，且可表征实体特征生成规则信息，基于此，可获得目标实体的特征数据的所有可能生成方式及生成特征数据所需的实体关系数据的信息。需要说明的是，特征范式集可以由本申请实施例的执行方自行根据实体关系数据生成，也可以由其它第三方生成，本申请实施例的执行方在需要时从第三方获取即可。

在一种可行方式中，所述实体特征生成规则信息包括：实体特征生成路径信息、实体特征生成路径信息所对应的路径上的实体节点间的操作符信息、和所述路径上的除目标实体外的其它实体节点的属性信息。在实际应用中，可先基于实体关系数据构建实体关系图，基于实体关系图确定上述实体特征生成规则信息，进而确定相对应的特征范式。

一种示例性特征范式如下：

f4＝

Item.NORM(Item.Cate.MAX(Item.MEAN(Order.User.SUM(Order.item_quantity)))))

其中，f4为特征范式的名称标识示例，粗体部分为实体示例，斜体部分为操作符示例，item_quantity为属性信息示例。由该特征范式可见，特征范式中从右往左出现的实体唯一对应一条实体关系图中的特征生成路径，如可以将Order实体的item_quantity特征通过路径[Order->User->Order->Item->Cate->Item->Item]汇总到Item实体上。

如前所述，每一个实体对应有至少一个特征范式，基于该实体对应的特征范式，即可为该实体生成多种形式的特征。

通过这种特征范式的方式，可以对特征数据的加工过程进行规则化描述，以提高特征数据生成的效率。

虽然，通过特征范式可以生成相应的特征数据，但是，特征范式数量由实体特征生成路径数量、实体特征生成路径信息所对应的路径上的实体节点间的操作符数量、和所述路径上的除目标实体外的其它实体节点的属性信息数量三方面组合决定，因此特征范式的数量通常情况下会很大，假设其数量为

机器学习模型所需的训练数据所对应的特征数据，由部分特征范式组合所对应的特征值构成，上述特征范式组合共有

种情况。如果使用全部特征范式进行后续处理，则在后续需要全量计算特征范式对应的特征值，然后进行特征组合，将会导致特征范式空间大，特征计算及组合开销大，后续数据进一步处理的负担大等问题。

为此，本申请实施例提供的方案还需进行后续步骤S104-S108的处理，具体如下描述。

步骤S104：按照选取策略，从获取的所有特征范式中选取特征范式，并根据选取的特征范式所描述的实体特征生成规则信息确定特征范式对应的特征值。

其中，在初始时(例如生成首个实体的特征数据时)，因尚无参照，因此初始的选取策略可采用全部选取或随机选取的形式，选取目标实体对应的所有特征范式进行处理，或者随机选取目标实体对应的某些特征范式进行处理。进而，以该次处理过程中的相关数据为依据，可对选取策略进行更新，则在生成非首个实体的特征数据时，将依据更新后的选取策略，从当前实体对应的特征范式中进行有针对性的选取。可见，针对每个目标实体的特征数据的生成过程均可成为更新后续目标实体的特征范式选取策略的依据，从而不断优化选取策略，从整体上提升特征数据生成的效率和有效性。

在一种可行方式中，当实体特征生成规则信息包括：实体特征生成路径信息、实体特征生成路径信息所对应的路径上的实体节点间的操作符信息、和所述路径上的除目标实体外的其它实体节点的属性信息时，本步骤的特征值的生成可实现为：沿实体特征生成路径信息所对应的路径和所述路径上的实体节点间的关系，将所述其它实体节点的属性信息按照所述操作符信息所指示的操作，生成操作结果并汇总至所述目标实体上，以获得目标实体在当前特征范式下的特征值。由此，实现高效且准确的特征值获取。

如前述特征范式f4，将Order实体的item_quantity特征通过路径[Order->User->Order->Item->Cate->Item->Item]汇总到Item实体上。

需要说明的是，本申请实施例中，为了便于与最终生成的目标实体的特征数据相区别，将基于本步骤选取的特征范式而汇总生成的特征数据称为特征值。

步骤S106：对所述特征值进行评估获得评估结果，并将评估结果优于历史特征值的评估结果的特征值确定为有效特征值。

其中，所述评估可采用适当方式进行，为使生成的特征数据更适用于后续待使用的机器学习模型，可将该机器学习模型作为评估器对所述特征值进行评估。但不限于此，其它适当的评估方式也同样适用本申请实施例的方案。

针对某一目标实体，在其对应有多个特征范式时，则会对应有多个特征值，其历史特征值为已被评估过的特征值。初始时，历史特征值为空，其对应的评估结果也为与空对应的设置，如，也为空，或为0等，本申请实施例对此不作限制。

为便于确定有效特征值且对有效特征值进行高效管理，在一种可行方式中，可以针对目标实体预先构建有效特征范式集合和有效特征值集合，其中，该有效特征范式集合和该有效特征值集合在初始时均为空集合。也即，针对当前目标实体，为其构建有效特征范式集合和有效特征值集合。当需为下一新的目标实体生成特征数据时，再为该新的目标实体构建与其对应的新的有效特征范式集合和有效特征值集合。

基于此，在一种可行方式中，在按照选取策略，从获取的目标实体对应的所有特征范式中选取出特征范式后，针对每个选取的特征范式计算其对应的特征值后，将该特征值与有效特征值集合中的所有历史有效特征值一起输入评估器进行评估，获得针对该特征值的评估结果；若该特征值的评估结果优于有效特征值集合中的所有历史有效特征值对应的评估结果，则将该特征值确定为有效特征值。进一步地，可将该有效特征值同时放入有效特征值集合中。其中，所述评估结果的具体指标可由本领域技术人员根据实际需求适当设置。但为使评估结果更为客观和有效，可选地，评估结果可以设置为评估器输出结果的准确度。

假设，目标实体X的当前有效特征值集合中有{V1、V2、V3}，当前特征值为V4，则V1、V2、V3和V4会被一起输入评估器进行评估，获得V4对应的评估结果，设定为准确度0.6。若{V1、V2、V3}对应的评估结果中没有大于0.6的评估结果，则V4为有效特征值；反之，V4不为有效特征值，V4及其对应的特征范式都将被舍弃。

在V4为有效特征值的情况下，其将被加入有效特征值集合，当前有效特征值集合将被更新为{V1、V2、V3、V4}，继续对特征范式对应的特征值进行评估，设当前特征值为V5，则V1、V2、V3、V4和V5会被一起输入评估器进行评估，获得V5对应的评估结果，设定为0.5。则因V5的评估结果未能优于V4，其将被舍弃。

可见，在使用有效特征范式集合和有效特征值集合的情况下，在将该特征值确定为有效特征值之后，可以将该有效特征值加入有效特征值集合以更新有效特征值集合，并且，可以将有效特征值对应的特征范式也加入有效特征范式集合以更新有效特征范式集合。也即，有效特征范式集合和有效特征值集合随着特征值的评估结果更新而更新，与每个当前特征值的评估结果相比对的历史有效特征值存在不同的可能性。

此外，需要说明的是，本申请实施例中，若无特殊说明，“多个”、“多种”等与“多”有关的数量均意指两个及两个以上。

步骤S108：根据有效特征值和有效特征值对应的特征范式，生成目标实体的特征数据。

在确定了目标实体对应的所有有效特征值及有效特征值对应的特征范式(简称为有效特征范式)后，即可基于这两部分数据为目标实体生成特征数据。其中，有效特征范式与有效特征值一一对应。也即，可根据有效特征范式的顺序选取有效特征值，并基于该顺序生成目标实体的特征数据。

但在某些情况下，有效特征范式和有效特征值仍存在数量较多的可能性，为此，在一种可行方式中，若确定有效特征值集合已根据选取的所有特征范式对应的特征值完成更新，且，有效特征范式集合已根据选取的所有特征范式完成更新，则按照预设规则从完成更新后的有效特征范式集合中确定待使用的有效特征范式；根据所述用的有效特征范式，从完成更新后的有效特征值集合中确定对应的待使用的有效特征值；根据待使用的有效特征值，生成目标实体的特征数据。其中，预设规则可由本领域技术人员根据实际需求适当设定，例如，按照各特征值对应的评估结果选取TOP N个等。通过该种方式，可以进一步减轻数据处理负担，提高特征数据生成效率。

以下，以一个某商品的预测场景示例对上述过程进行示例性说明，如图1B所示。

假设，需预测某商品在未来一个月内的销量情况，则可首先从该商品在售的一个或多个电子商务平台中获取该商品的历史销售数据，包括消费者数据、订单数据、店铺数据等。对这些历史销售数据进行包括数据标准化和数据去噪在内的预处理后，进行实体特征数据生成。该生成过程包括：基于消费者、订单和店铺这三个实体间的关系及各自对应的数据生成实体关系数据；基于该实体关系数据构建实体关系图；基于该实体关系图生成所有实体对应的所有特征范式；针对每个实体，获取其对应的所有特征范式；从该所有特征范式中按照选取策略选取出部分特征范式并获得这部分特征范式对应的特征值；按照上述步骤S106中所述方式逐个对特征值进行评估，从中确定出有效特征值及其对应的特征范式；在对所有特征范式和特征值均处理完成后，也即，获得了当前实体的所有有效特征范式和有效特征值后，即可据此生成该实体的特征数据。该生成的特征数据将被输入待使用的机器学习模型(如LightGBM/Xgboost等)，以对该机器学习模型进行训练。本示例中，对该训练过程及训练后的后处理过程不再详述，也不作限定。

通过本实施例，在生成实体对应的特征数据时，一方面，基于特征范式进行处理，该特征范式描述了基于实体关系数据生成的实体特征生成规则信息，也即，其描述了目标实体的特征数据的所有可能生成方式。由此，无需人工对实体关系数据进行组合和梳理，大大降低了特征数据生成成本，可有效适用于一阶段特征数据生成处理。另一方面，在生成特征数据时，重点考虑评估结果优于历史特征值的评估结果的特征值，即有效特征值，通过这种方式，可高效筛选出可有效表征目标实体特征的特征值和特征范式，进而高效生成目标实体的特征数据，大大提高了特征数据的生成效率，降低了生成特征数据的计算开销。

本实施例的特征数据生成方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器和PC机等。

实施例二

参照图2A，示出了根据本申请实施例二的一种特征数据生成方法的步骤流程图。

本实施例中，采用特征范式由本申请实施例方案的执行方自行生成为示例进行说明，本实施例的特征数据生成方法包括以下步骤：

步骤S202：基于实体关系数据构建实体关系图，基于实体关系图构建实体对应的特征范式，基于所有特征范式生成特征范式集。

其中，特征范式可描述基于实体关系数据的实体特征生成规则信息。具体地，生成特征范式的过程可包括：根据实体关系数据生成有向无环的实体关系图，其中，实体关系图中的节点为用于表征实体的实体节点，实体节点之间的边用于表征实体之间的关系，实体节点具有实体的属性信息表；基于实体关系图进行路径采样，获得以实体节点为终止节点的实体特征生成路径的信息；根据实体特征生成路径上的相邻实体节点之间的边所表征的实体之间的关系，为相邻实体节点挂载操作符，并且，为实体特征生成路径上的实体节点挂载属性信息表；根据挂载了操作符和属性信息表后的实体特征生成路径，生成实体节点对应的特征范式。

以下，对上述过程进行具体说明。

(1)根据实体关系数据生成有向无环的实体关系图。

在一种可行方式中，可根据数据库中存放的实体关系型数据集的主外键关系解析获得实体关系图，解析可以借助人工或者其他相关算法来完成，在此不再赘述。本实施例中，该实体关系图采用有向无环图来表示。

例如，可以定义实体关系型数据集为

其中

表示

个实体节点集合。基于此，可将实体关系图中的节点定义为实体(如商品、消费者、订单、店铺等)；ε＝ε₁∪ε₂∪ε₃为边集合，顺向边ε₁＝∪{<v^child，v^parent>}为从子节点指向父节点的有向边，表示实体间存在n对1关系(如多个子订单可对应一个消费者)，逆向边ε₂＝∪{<v^parent，v^child>}为从父节点指向子节点的有向边，表示实体间存在1对n关系，自循环边ε₃＝∪{<v_i，v_i>}，指向节点自身到自身；各实体节点会挂载不同的属性信息表，记录实体的历史属性数据及历史行为数据，定义为

对应

个实体节点的属性信息表，其中t_i为第i个实体节点挂载的属性信息表，该属性信息表的主键指向本实体节点的实体id，外键指向邻接实体节点的实体id。

一种电商场景中构建的实体关系图示例如图2B所示，由图中可见，该实体关系图中的实体节点包括：消费者实体节点1、子订单实体节点2、商品实体节点3、类目实体节点5、店铺实体节点4、品牌实体节点6和日志实体节点7，其中的每个实体节点上都挂载有对应的属性信息表(包含用于描述实体节点对应的实体的属性及行为的信息)。在该实体关系图中，存在子订单实体节点2指向消费者实体节点1和商品实体节点3的有向边，商品实体节点3指向类目实体节点5、店铺实体节点4和品牌实体节点6的有向边，以及，日志实体节点7指向消费者实体节点1和商品实体节点3的有向边。

由此可见，通过实体关系图，可以清楚且简单方便地实现实体间关系的表征和数据的确定。

(2)基于实体关系图进行路径采样，获得以实体节点为终止节点的实体特征生成路径的信息。

实体特征生成路径采用形式化表示，假设生成实体v_i的特征，则特征生成路径为实体关系图

中以v_i为终止节点的所有合法路径并集，

表示不同的路径长度，示例如下：

(3)根据实体特征生成路径上的相邻实体节点之间的边所表征的实体之间的关系，为相邻实体节点挂载操作符，并且，为实体特征生成路径上的实体节点挂载属性信息表；根据挂载了操作符和属性信息表后的实体特征生成路径，生成实体节点对应的特征范式。基于所有特征范式生成特征范式集合。

在挂载操作符(也称算子)方面：每条实体特征生成路径上的相邻节点间的每条边上可挂载操作符集合

中的操作符，其中，顺向边ε₁可挂载操作符

逆向边ε₂可挂载操作符

自循环边ε₃可挂载操作符

其中操作符表示沿着实体关系图中相邻实体节点之间的边，对应的属性信息表中的信息的一种加工函数，本申请实施例中，将操作符分为三大类：

第一类：聚合算子(沿着顺向边，将属性信息表中的信息从子实体聚合到父实体，如将订单实体的信息聚合到商品实体)。聚合算子包括且不限于以下几种：

第二类：赋值算子(沿着逆向边，将属性信息表中的信息从父实体赋值给子实体，如将商品的属性信息赋值给订单实体)

算子	算子含义
		Direct	直接赋值

第三类：转换算子(沿着循环边，将属性信息表中的信息从自身转换到自身)。转换算子包括且不限于以下几种：

算子	算子含义
		Percentile	取百分制排序
Log	取对数变换
		Sqrt	取开方函数变换
Sin	Sin函数变换
		Cos	Cos函数变换
EqualRangeDiscretizer	等间距离散化变换

在挂载属性值方面：将实体v_i的属性信息表t_i中的属性及行为数据列挂载到实体节点上。

基于上述设置，针对每个实体，即可生成其对应的一个或多个特征范式，所有实体对应的所有特征范式形成特征范式集，也称特征范式空间。

由上可见，实体v_i的特征范式空间可以定义为

其中

为以v_i为终止节点的所有合法路径并集，

为路径

可挂载的操作符组合，

为路径

所有起始节点的实体对应属性信息表中可挂载的属性信息(变量)集合，X表示笛卡尔积。实体v_i的特征数据加工过程可表达为

中变量，可以沿着对应的由ε组成的路径

并施加相对应操作

汇总到实体v_i上，获得v_i特征范式集合

一种上述过程的示例如图2C所示，图2C基于图2B所示的实体关系图，分别进行路径采样、操作符挂载和属性值挂载，生成一个实体的一个特征范式f4。

通过上述过程可见，实体关系数据集及实体关系图给定后，特征数据的加工过程可以通过一套规则化的描述来定义，即特征范式。每个特征范式唯一定义一种实体关系数据集上的特征数据加工规则，由三要素构成：实体、操作符(算子)、原始特征(属性信息)。如图2C中f4所示，通过表达式将实体、操作符、原始特征连接到一起，构造成特征范式，特征范式中从右往左出现的实体唯一对应一条实体关系图中的特征生成路径，如，可以将Order实体的item_quantity特征通过路径[Order->User->Order->Item->Cate->Item->Item]汇总到Item实体上。其中，图中的AGG为聚合算子，T为转换算子，D为赋值算子。

在构建生成特征范式集后，即可进行后续的特征数据的生成操作，包括下述步骤S204-S210。

步骤S204：根据待生成特征数据的目标实体，从特征范式集中获取与目标实体对应的所有特征范式。

其中，目标实体来自于实体关系图中的实体节点对应的实体。

步骤S206：按照选取策略，从获取的目标实体对应的所有特征范式中选取特征范式，并根据选取的特征范式所描述的实体特征生成规则信息确定特征范式对应的特征值。

步骤S208：对所述特征值进行评估获得评估结果，并将评估结果优于历史特征值的评估结果的特征值确定为有效特征值。

步骤S210：根据所述有效特征值和所述有效特征值对应的所述特征范式，生成目标实体的特征数据。

上述步骤S204-S210的具体实现可参照前述实施例一中相应部分的描述，在此不再详述。

通过本实施例，基于实体关系图构建特征范式集，以表征每个实体对应的实体特征生成路径，从而可以高效、快捷地确定每个实体的特征生成方式。进而，继续该特征范式集进行后续的特征数据生成处理，高效筛选出可有效表征目标实体特征的特征值和特征范式，进而高效生成目标实体的特征数据，大大提高了特征数据的生成效率，降低了生成特征数据的计算开销。

实施例三

参照图3A，示出了根据本申请实施例三的一种特征数据生成方法的步骤流程图。

本实施例中，以基于特征数据生成过程中的相关数据为依据进行特征范式的选取策略更新为侧重，对本申请实施例提供的特征数据生成方法进行说明。

本实施例的特征数据生成方法包括以下步骤：

步骤S302：根据待生成特征数据的目标实体，从特征范式集中获取与目标实体对应的所有特征范式。

其中，所述特征范式用于描述基于实体关系数据的实体特征生成规则信息。可选地，所述特征范式集及其中的特征范式可采用如实施例二中所述的方式获得。

步骤S304：按照选取策略，从获取的所有特征范式中选取特征范式，并根据选取的所述特征范式所描述的实体特征生成规则信息确定特征范式对应的特征值。

步骤S306：对所述特征值进行评估获得评估结果，并将评估结果优于历史特征值的评估结果的特征值确定为有效特征值。

步骤S308：根据所述有效特征值和所述有效特征值对应的所述特征范式，生成目标实体的特征数据。

上述步骤S302-S308的具体实现可参照前述实施例一中相应部分的描述，在此不再详述。

步骤S310：根据目标实体对应的特征范式，对选取策略进行更新。

通过本步骤，以选取的当前特征范式及已存在的有效特征范式为依据，对选取策略进行更新，以实现选取策略的优化，指导后续的特征范式选取方向。

在一种可行方式中，可使用DQN模型实现选取策略的更新。基于此，在一种可行方式中，以某时刻选取的特征范式的向量(编码向量)为动作表征向量，以该时刻对应的有效特征范式集合中的特征范式对应的特征统计向量(可以实现为特征范式的编码对应的特征统计向量)为状态表征向量，基于预设的奖励函数构建DQN模型，通过构建的DQN模型获得选取策略，并根据前次特征范式通过奖励函数获得的奖励值获得当前特征范式对应的Q值；根据所述Q值，对获得的所述选取策略进行动态更新。其中，可选地，所述奖励函数根据预设参数生成，所述预设参数包括：：所述评估结果的准确度。进一步可选地，所述预设参数还包括以下至少之一：实体特征数据的重要度排序、特征范式的复杂度惩罚。其中，实体特征数据的重要度排序可用于指示特征数据是否按照重要程度合理排序，例如，对于消费者实体来说，其对应的特征数据中，商品特征数据的重要度是否高于店铺特征数据，等。特征范式的复杂度惩罚可用于指示特征范式是否过长，可以设定一长度阈值，若特征范式的长度超过该长度阈值即对特征范式进行惩罚，或者，超过的越多惩罚越多等。上述评估结果的准确度，实体特征数据的重要度排序、特征范式的复杂度惩罚可结合使用，也可单独使用，可由本领域技术人员根据实际需求基于这些因素设定奖励目标，本申请实施例对具体设定方式不作限制。

DQN(Deep Q Network)是一种强化学习模型，强化学习是一个反复迭代的过程，每一次迭代要解决两个问题：给定一个策略求值函数，和根据值函数来更新策略。对于DQN来说，其使用神经网络来近似值函数Q，神经网络的输入可以是状态表征向量和动作表征向量，输出是动作表征向量对应的Q值。其中的对智能体的奖励基于奖励函数确定，DQN模型的每一次输入会产生一个奖励，即奖励值。则，基于前次特征范式确定的奖励值获得当前特征范式的Q值，根据该Q值来确定是否进行策略更新。

具体到本实施例，以某时刻如t时刻选取的特征范式对应的编码向量为动作表征向量，以该时刻对应的有效特征范式集合中的特征范式编码对应的特征统计向量为状态表征向量，分别将对应的特征生成路径向量、操作符向量、属性值向量和特征统计向量输入DQN，基于前次通过奖励函数确定的奖励值获得DQN输出的Q值；基于该Q值确定是否进行策略更新。若当前Q值优于历史Q值，或者当前Q值满足预设的标准值，则可认为动作表征向量和状态表征向量的选择较优，可以该动作表征向量对应的动作即对应的特征范式的选取动作来更新当前的选取策略。更新后的策略从多个特征范式中选取出的特征范式为有效特征范式的可能性也更高，从而提升有效特征范式的选取效率。其中，特征范式编码对应的特征统计向量可以根据特征范式在生成路径维度、操作符维度和属性值维度的编码生成的统计直方图数据获得，也即，以该统计直方图数据对应的向量作为状态表征向量。

例如，假设第t时刻智能体(Agent)的动作为a_t，定义为t时刻从特征范式空间

中挑选一个特征范式f_i ^t，动作a_t的表征可以采用特征范式f_i ^t对应的Embedding表征；假设第t时刻环境(Environment)对智能体的奖励为r_t，其中奖励(Reward)函数可以从评估器的模型性能相对提升维度、特征范式对应特征在评估器模型中的重要性相对排序维度、和特征范式复杂度(如特征范式路径长度)惩罚维度等综合考虑；假设第t时刻环境的状态为s_t，采用t时刻

中各个特征范式编码在各个维度的统计直方图来表征；Policy Net/Target Net可通过多层神经网络结构实现。当Policy Net/Target Net在接受动作表征向量和状态表征向量后，通过神经网络获得对应Q值，依据Q值可以完成最佳动作选取。其中，策略更新即DQN的主训练更新流程可采用现关技术如Nature 2015类似技术实现，本申请实施例在此不再赘述。

以下，以一个具体示例对上述过程进行示例性说明，如图3B所示。

首先，在给定模型(如LightGBM/Xgboost等)和度量标准(如MAPE(Mean AbsolutePercentage Error，平均绝对百分比误差)/SMAPE(Symmetric Mean Absolute PercentageError，对称平均绝对百分比误差)，用于度量两个实体对应的特征数据的差异)后，针对某个实体关系图对应的特征范式空间

(即所有特征范式构成的特征范式集)，选择其中的最优特征范式子集

使得采用该特征范式子集计算的特征集能使得模型性能最优，形式化定义为：

其中，

为选择的模型及超参，

为度量标准(如MAPE/SMAPE等)，

为模型性能，y为label。由于最优特征范式子集

是特征范式空间

的一个子集，假设特征范式对应的规则的数量为

(通常情况下会很大)，则特征范式子集的组合共有

种情况。若是全量计算特征范式对应的特征值，然后根据组合获得所有潜在的特征范式子集，对每个特征范式子集进行评估，进而获得最优特征范式子集

将非常耗费算力。这是因为：特征范式空间大，计算所有特征范式对应的特征值开销大；并且，特征范式子集组合方式多，导致评估特征值的计算开销也高。

为此，本示例提供了一种基于强化学习的自适应近似最优特征范式组合选取策略。具体地，在特征范式选取过程中，强化学习算法会学习前面已评估特征范式对应的特征值的评估结果如打分分布，指导后续特征范式选取方向。

示例性地，该过程如下：

(1).确定评估器及参数(超参，根据模型设定)，统一简称为

(2).假设计算实体v_i的特征，在给定

后(根据特征范式空间中特征范度的长度预先设定)，通过穷举实体v_i的所有潜在的特征范式，构建实体v_i对应的特征范式空间

并且，初始化实体v_i的有效(近似最优)特征范式集合

为空，对应的特征值集合

为空；

(3).判断是否满足搜索迭代终止条件(如迭代次数达到预设次数或其它适当终止条件)，满足则结束流程；否则进入第t次迭代，根据特征范式的选取策略π从特征范式空间

中选择特征范式

(4).计算特征范式

对应的特征值

将特征值集合

送入评估器

进行评估，如果评估器的模型性能(如输出结果的准确度等)相对于特征集

有增益，则判定

为有效特征范式，反之为无效特征范式。

(5).如果

有效，则将

添加到有效特征范式集合

将

添加到对应的有效特征值集合

否则，从

中移除

在一种可行方式中，还可将上述信息同步记入知识库，知识库记录了增加特征范式

后评估器的模型性能增益情况。

至此，在

和

完全完成后，即可基于此生成实体v_i的特征数据。但为了优化选取策略π，还可执行下述过程(6)。

(6).策略学习器(如DQN模型)根据知识库记录的信息进行选取策略π的更新，更新完成后返回(3)执行。

最终搜索结束后，有效特征范式集合

即所求的实体v_i的最优特征子集

其中，策略学习器可以基于DQN模型实现。以基于实体v_i的数据进行选取策略更新为示例，首先，可以将实体v_i的特征范式中的实体、操作符、属性值分别进行编码后，采用Embedding做表征，t时刻动作(Action)为t时刻从特征范式空间

中挑选一个特征范式

动作表征可直接采用特征范式的Embedding表征；t时刻状态(State)采用t时刻

中各个特征范式编码在各个维度的统计直方图来表征，即状态表征采用统计直方图表征；奖励(Reward)函数可以从模型性能相对提升维度、特征重要性相对排序维度、和特征复杂度惩罚维度等综合考虑。Policy Net/Target Net在接受动作表征向量和状态表征向量后，通过神经网络获得对应Q值。基于Q值进行选取策略更新。其中，

中各个特征范式编码在各个维度的统计直方图可以采用各个特征范式的onehot编码分别在生成路径维度、操作符维度和属性值维度上的统计直方图。例如，最大深度为2的所有M个生成路径从0开始依次进行onehot编码；所有N个算子(操作符)从0开始依次进行onehot编码；所有W个属性值(原始特征)从0开始依次进行onehot编码。进而，为这些onehot编码确定统计直方图，由此获得所述状态表征。

通过本实施例的方案，可以基于表达实体关系型数据集间的结构关系的实体关系图(有向无环图)，将特征数据构建规则通过特征范式进行抽象表达，每个特征范式唯一描述一种特征数据的生成方式，某个实体的所有潜在的特征范式构成了特征范式空间，表征了该实体的所有特征数据的可能生成方式。鉴于特征范式空间较大，不是每个特征范式生成的特征数据都具有正面效果，因此挑选出有效的特征范式子集。并且，基于强化学习的特征范式选取策略，自动地从特征范式空间挑选最优特征范式子集，可以有效避免全量遍历特征范式带来的计算开销。

实施例四

参照图4，示出了根据本申请实施例四的一种特征数据生成装置的结构框图。

本实施例的特征数据生成装置包括：获取模块402，用于根据待生成特征数据的目标实体，从特征范式集中获取与所述目标实体对应的所有特征范式，其中，所述特征范式用于描述基于实体关系数据的实体特征生成规则信息；第一确定模块404，用于按照选取策略，从获取的所有特征范式中选取特征范式，并根据选取的所述特征范式所描述的实体特征生成规则信息确定特征范式对应的特征值；第二确定模块406，用于对所述特征值进行评估获得评估结果，并将评估结果优于历史特征值的评估结果的特征值确定为有效特征值；生成模块408，用于根据所述有效特征值和所述有效特征值对应的所述特征范式，生成所述目标实体的特征数据。

可选地，第二确定模块406，用于针对每个选取的特征范式的特征值，将该特征值与有效特征值集合中的所有历史有效特征值一起输入评估器进行评估，获得针对该特征值的评估结果；若该特征值的评估结果优于所述有效特征值集合中的所有历史有效特征值对应的评估结果，则将该特征值确定为有效特征值。

可选地，本实施例的装置还包括：初始化模块410，用于在所述获取模块402根据待生成特征数据的目标实体，从特征范式集中获取与所述目标实体对应的所有特征范式之后，针对所述目标实体构建有效特征范式集合和有效特征值集合；其中，所述有效特征范式集合和所述有效特征值集合在初始时均为空集合；第二确定模块406，还用于在所述将该特征值确定为有效特征值之后，将该有效特征值加入所述有效特征值集合以更新所述有效特征值集合，并且，将所述有效特征值对应的所述特征范式加入所述有效特征范式集合以更新所述有效特征范式集合。

可选地，生成模块408，用于若确定所述有效特征值集合已根据选取的所有特征范式对应的特征值完成更新，且，所述有效特征范式集合已根据选取的所有特征范式完成更新，则按照预设规则从完成更新后的有效特征范式集合中确定待使用的有效特征范式；根据所述待使用的有效特征范式，从完成更新后的有效特征值集合中确定对应的待使用的有效特征值；根据所述待使用的有效特征值，生成所述目标实体的特征数据。

可选地，所述实体特征生成规则信息包括：实体特征生成路径信息、所述实体特征生成路径信息所对应的路径上的实体节点间的操作符信息、和所述路径上的除所述目标实体外的其它实体节点的属性信息。

可选地，第一确定模块404，用于按照选取策略，从获取的所有特征范式中选取特征范式；沿所述特征范式的实体特征生成路径信息所对应的路径和所述路径上的实体节点间的关系，将所述其它实体节点的属性信息按照所述操作符信息所指示的操作，生成操作结果并汇总至所述目标实体上，以获得所述目标实体在当前特征范式下的特征值。

可选地，本实施例的装置还包括：构建模块412，用于根据实体关系数据生成有向无环的实体关系图，其中，所述实体关系图中的节点为用于表征实体的实体节点，实体节点之间的边用于表征实体之间的关系，所述实体节点具有实体的属性信息表；基于所述实体关系图进行路径采样，获得以实体节点为终止节点的实体特征生成路径的信息；根据所述实体特征生成路径上的相邻实体节点之间的边所表征的实体之间的关系，为相邻实体节点挂载操作符，并且，为所述实体特征生成路径上的实体节点挂载属性信息表；根据挂载了操作符和属性信息表后的实体特征生成路径，生成实体节点对应的特征范式。

可选地，本实施例的装置还包括：更新模块414，用于根据所述目标实体对应的特征范式，对所述选取策略进行更新。

可选地，更新模块414，用于以某时刻选取的特征范式的向量为动作表征向量，以该时刻对应的有效特征范式集合中的特征范式对应的特征统计向量为状态表征向量，基于预设的奖励函数构建DQN模型；通过构建的DQN模型获得选取策略，并根据前次特征范式通过所述奖励函数获得的奖励值获得当前特征范式对应的Q值；根据所述Q值对获取的所述选取策略进行动态更新。

可选地，所述奖励数据包括：所述评估结果的准确度。

可选地，所述奖励数据还包括以下至少之一：实体特征数据的重要度排序、特征范式的复杂度惩罚。

本实施例的特征数据生成装置用于实现前述多个方法实施例中相应的特征数据生成方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的特征数据生成装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例五

参照图5，示出了根据本申请实施例五的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图5所示，该电子设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它电子设备或服务器进行通信。

处理器502，用于执行程序510，具体可以执行上述特征数据生成方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行前述实施例一至三中任意一个实施例中所描述的特征数据生成方法。

程序510中各步骤的具体实现可以参见上述特征数据生成方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，在生成实体对应的特征数据时，一方面，基于特征范式进行处理，该特征范式描述了基于实体关系数据生成的实体特征生成规则信息，也即，其描述了目标实体的特征数据的所有可能生成方式。由此，无需人工对实体关系数据进行组合和梳理，大大降低了特征数据生成成本，可有效适用于一阶段特征数据生成处理。另一方面，在生成特征数据时，重点考虑评估结果优于历史特征值的评估结果的特征值，即有效特征值，通过这种方式，可高效筛选出可有效表征目标实体特征的特征值和特征范式，进而高效生成目标实体的特征数据，大大提高了特征数据的生成效率，降低了生成特征数据的计算开销。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述多个方法实施例中的任一特征数据生成方法对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的特征数据生成方法。此外，当通用计算机访问用于实现在此示出的特征数据生成方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的特征数据生成方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种特征数据生成方法，包括：

根据待生成特征数据的目标实体，从特征范式集中获取与所述目标实体对应的所有特征范式，其中，所述特征范式用于描述基于实体关系数据的实体特征生成规则信息；

按照选取策略，从获取的所有特征范式中选取特征范式，并根据选取的所述特征范式所描述的实体特征生成规则信息确定特征范式对应的特征值；

对所述特征值进行评估获得评估结果，并将评估结果优于历史特征值的评估结果的特征值确定为有效特征值；

根据所述有效特征值和所述有效特征值对应的所述特征范式，生成所述目标实体的特征数据。

2.根据权利要求1所述的方法，其中，所述对所述特征值进行评估获得评估结果，并将评估结果优于历史特征值的评估结果的特征值确定为有效特征值，包括：

针对每个选取的特征范式的特征值，将该特征值与有效特征值集合中的所有历史有效特征值一起输入评估器进行评估，获得针对该特征值的评估结果；

若该特征值的评估结果优于所述有效特征值集合中的所有历史有效特征值对应的评估结果，则将该特征值确定为有效特征值。

3.根据权利要求2所述的方法，其中，

在所述根据待生成特征数据的目标实体，从特征范式集中获取与所述目标实体对应的所有特征范式之后，所述方法还包括：针对所述目标实体构建有效特征范式集合和有效特征值集合；其中，所述有效特征范式集合和所述有效特征值集合在初始时均为空集合；

在所述将该特征值确定为有效特征值之后，所述方法还包括：将该有效特征值加入所述有效特征值集合以更新所述有效特征值集合，并且，将所述有效特征值对应的所述特征范式加入所述有效特征范式集合以更新所述有效特征范式集合。

4.根据权利要求3所述的方法，其中，所述根据所述有效特征值和所述有效特征值对应的所述特征范式，生成所述目标实体的特征数据，包括：

若确定所述有效特征值集合已根据选取的所有特征范式对应的特征值完成更新，且，所述有效特征范式集合已根据选取的所有特征范式完成更新，则按照预设规则从完成更新后的有效特征范式集合中确定待使用的有效特征范式；根据所述待使用的有效特征范式，从完成更新后的有效特征值集合中确定对应的待使用的有效特征值；

根据所述待使用的有效特征值，生成所述目标实体的特征数据。

5.根据权利要求1所述的方法，其中，所述实体特征生成规则信息包括：实体特征生成路径信息、所述实体特征生成路径信息所对应的路径上的实体节点间的操作符信息、和所述路径上的除所述目标实体外的其它实体节点的属性信息。

6.根据权利要求5所述的方法，其中，所述根据选取的所述特征范式所描述的实体特征生成规则信息确定特征范式对应的特征值，包括：

沿所述特征范式的实体特征生成路径信息所对应的路径和所述路径上的实体节点间的关系，将所述其它实体节点的属性信息按照所述操作符信息所指示的操作，生成操作结果并汇总至所述目标实体上，以获得所述目标实体在当前特征范式下的特征值。

7.根据权利要求5所述的方法，其中，所述方法还包括：

根据实体关系数据生成有向无环的实体关系图，其中，所述实体关系图中的节点为用于表征实体的实体节点，实体节点之间的边用于表征实体之间的关系，所述实体节点具有实体的属性信息表；

基于所述实体关系图进行路径采样，获得以实体节点为终止节点的实体特征生成路径的信息；

根据所述实体特征生成路径上的相邻实体节点之间的边所表征的实体之间的关系，为相邻实体节点挂载操作符，并且，为所述实体特征生成路径上的实体节点挂载属性信息表；

根据挂载了操作符和属性信息表后的实体特征生成路径，生成实体节点对应的特征范式。

8.根据权利要求2所述的方法，其中，所述方法还包括：

根据所述目标实体对应的特征范式，对所述选取策略进行更新。

9.根据权利要求8所述的方法，其中，所述根据所述目标实体对应的特征范式，对所述选取策略进行更新，包括：

以某时刻选取的特征范式的向量为动作表征向量，以该时刻对应的有效特征范式集合中的特征范式对应的特征统计向量为状态表征向量，基于预设的奖励函数构建DQN模型；

通过构建的DQN模型获得选取策略，并根据前次特征范式通过所述奖励函数获得的奖励值获得当前特征范式对应的Q值，根据所述Q值对获得的所述选取策略进行动态更新。

10.根据权利要求9所述的方法，其中，所述奖励函数根据预设参数生成，所述预设参数包括：所述评估结果的准确度。

11.根据权利要求10所述的方法，其中，所述预设参数还包括以下至少之一：实体特征数据的重要度排序、特征范式的复杂度惩罚。

12.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-11中任一项所述的方法对应的操作。

13.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-11中任一所述的方法。

14.一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如权利要求1-11中任一所述的方法对应的操作。