CN110858326A

CN110858326A - 模型训练及获取附加特征数据的方法、装置、设备及介质

Info

Publication number: CN110858326A
Application number: CN201910617687.6A
Authority: CN
Inventors: 李京; 涂威威
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2018-08-15
Filing date: 2019-07-10
Publication date: 2020-03-03
Anticipated expiration: 2039-07-10
Also published as: CN110858326B

Abstract

本发明提供了一种模型训练及获取附加特征数据的方法、装置、设备及介质。获取特征预测模型，特征预测模型基于源数据集训练而成，特征预测模型用于基于源数据与目标数据之间的至少一部分共有特征，来预测源数据的至少一部分独有特征；获取目标数据集；针对目标数据集中的每条目标数据，将目标数据中的至少一部分共有特征输入特征预测模型，以得到特征预测模型针对输入的至少一部分共有特征所预测出的至少一部分独有特征；将预测出的至少一部分独有特征作为目标数据的附加特征数据。本发明以共有特征为跳板，通过模型迁移方式将源数据的独有特征迁移到目标数据上，过程中源数据和目标数据未接触，大大降低了源数据的泄露风险。

Description

模型训练及获取附加特征数据的方法、装置、设备及介质

技术领域

本申请要求申请号为201810929755.8，申请日为2018年08月15日，名称为“模型训练及获取附加特征数据的方法、装置、设备及介质”的中国专利申请的优先权。本发明总体说来涉及数据科学领域，更具体地讲，涉及一种模型训练及获取附加特征数据的方法、装置、设备及介质。

背景技术

迁移学习(Transfer Learning)的目标是将从源数据获取的知识迁移到目标数据中，从而提升目标数据的使用效果。

现有的迁移学习算法通常是以数据的流通为前提，在实施过程中需要将源数据拿到目标数据的环境中。由于迁移过程会接触源数据，因此现有的迁移过程可能会导致源数据的隐私泄露，使得源数据的数据安全难以得到保证。所以很多数据的拥有者，如银行、保险、医疗、金融和政府部门等，都不愿意开放自己的数据作为源数据，这大大阻碍了迁移学习技术的应用和发展。

因此，需要一种实现将源数据中的知识迁移到目标数据的同时，还能够规避隐私泄露风险的方案。

发明内容

本发明的示例性实施例在于提供一种模型训练及获取附加特征数据的方法、装置、设备及介质，以解决现有技术存在的上述问题。

根据本发明的第一个方面，提出了一种用于获取附加特征数据的方法，包括：获取特征预测模型，其中，特征预测模型基于源数据集训练而成，用于基于源数据与目标数据之间的至少一部分共有特征，来预测源数据的至少一部分独有特征；获取目标数据集；针对目标数据集中的每条目标数据，将目标数据中的至少一部分共有特征输入特征预测模型，以得到特征预测模型针对输入的至少一部分共有特征所预测出的至少一部分独有特征；将预测出的至少一部分独有特征作为目标数据的附加特征数据。

可选地，获取特征预测模型的步骤包括：从外部接收特征预测模型；或者，获取特征预测模型的步骤包括：获取源数据集，基于源数据集训练特征预测模型。

可选地，获取特征预测模型的步骤包括：获取一个或多个特征预测模型，其中，每个特征预测模型的样本特征为至少一部分共有特征之中对应的一个或多个共有特征，每个特征预测模型的样本标记为至少一部分独有特征之中对应的一个或多个独有特征。

可选地，获取特征预测模型的步骤包括：获取一个或多个特征预测模型，每个特征预测模型用于预测所述至少一部分独有特征之中对应的单个独有特征，特征预测模型的样本特征为至少一部分共有特征，特征预测模型的样本标记为单个独有特征。

可选地，获取特征预测模型的步骤包括：获取一个或多个特征预测模型，每个特征预测模型用于预测所述至少一部分独有特征之中对应的至少两个独有特征，特征预测模型的样本特征为至少一部分共有特征，特征预测模型的样本标记为至少两个独有特征。

可选地，该方法还包括：从源数据的独有特征中选取源数据的至少一部分独有特征。

可选地，从源数据的独有特征中选取源数据的至少一部分独有特征的步骤包括：基于启发式算法从源数据的独有特征中选取部分独有特征。

可选地，从源数据的独有特征中选取源数据的至少一部分独有特征的步骤包括：统计各个独有特征的各个取值的概率；基于各个取值的概率，计算各个独有特征的信息熵；以及基于信息熵，选取部分独有特征。

可选地，从源数据的独有特征中选取源数据的至少一部分独有特征的步骤包括：基于各个独有特征相对于任务的重要性，从源数据的独有特征中选取部分独有特征。

可选地，该方法还包括：将源数据和目标数据均具有的字段确定为源数据和目标数据之间的共有特征，并将源数据具有且目标数据不具有的字段确定为源数据的独有特征。

可选地，特征预测模型为非线性模型。

可选地，该方法还包括：基于附加特征数据对目标数据进行填充，以得到新的数据。

可选地，该方法还包括：基于所述新的数据进行机器学习，以得到针对目标任务的机器学习模型。

根据本发明的第二个方面，还提供了一种特征预测模型的训练方法，包括：获取源数据集；基于源数据集训练特征预测模型，其中，特征预测模型用于基于源数据与目标数据之间的至少一部分共有特征，来预测源数据的至少一部分独有特征。

可选地，基于源数据集训练特征预测模型的步骤包括：分别以源数据的至少一部分共有特征之中对应的一个或多个共有特征为样本特征，以源数据的至少一部分独有特征之中对应的一个或多个独有特征为样本标记，进行模型训练，以得到一个或多个特征预测模型。

可选地，基于源数据集训练特征预测模型的步骤包括：分别以源数据的至少一部分共有特征为样本特征，以源数据的所述至少一部分独有特征之中对应的单个独有特征为样本标记，进行模型训练，以得到一个或多个特征预测模型。

可选地，基于源数据集训练特征预测模型的步骤包括：分别以源数据的至少一部分共有特征为样本特征，以源数据的所述至少一部分独有特征之中对应的至少两个独有特征为样本标记，进行模型训练，以得到一个或多个特征预测模型。

可选地，特征预测模型为非线性模型。

根据本发明的第三个方面，还提供了一种用于获取附加特征数据的装置，包括：预测模型获取单元，用于获取特征预测模型，其中，特征预测模型基于源数据集训练而成，特征预测模型用于基于源数据与目标数据之间的至少一部分共有特征，来预测源数据的至少一部分独有特征；目标数据集获取单元，用于获取目标数据集；预测单元，用于针对目标数据集中的每条目标数据，将目标数据中的至少一部分共有特征输入特征预测模型，以得到特征预测模型针对输入的至少一部分共有特征所预测出的至少一部分独有特征；以及特征数据确定单元，用于将预测出的至少一部分独有特征作为目标数据的附加特征数据。

可选地，预测模型获取单元从外部接收特征预测模型，或者，预测模型获取单元获取源数据集，基于源数据集训练特征预测模型。

可选地，预测模型获取单元获取一个或多个特征预测模型，每个特征预测模型的样本特征为至少一部分共有特征之中对应的一个或多个共有特征，每个特征预测模型的样本标记为至少一部分独有特征之中对应的一个或多个独有特征。

可选地，预测模型获取单元获取一个或多个特征预测模型，每个特征预测模型用于预测所述至少一部分独有特征之中对应的单个独有特征，特征预测模型的样本特征为至少一部分共有特征，特征预测模型的样本标记为单个独有特征。

可选地，预测模型获取单元获取一个或多个特征预测模型，每个特征预测模型用于预测所述至少一部分独有特征之中对应的至少两个独有特征，特征预测模型的样本特征为至少一部分共有特征，特征预测模型的样本标记为至少两个独有特征。

可选地，该装置还包括：特征筛选单元，用于从源数据的独有特征中选取源数据的至少一部分独有特征。

可选地，特征筛选单元基于启发式算法从源数据的独有特征中选取部分独有特征。

可选地，特征筛选单元包括：统计单元，用于统计各个独有特征的各个取值的概率；计算单元，用于基于各个取值的概率，计算各个独有特征的信息熵；以及选取单元，用于基于信息熵，选取独有特征。

可选地，特征筛选单元基于各个独有特征相对于任务的重要性，从源数据的独有特征中选取部分独有特征。

可选地，该装置还包括：特征确定单元，用于将源数据和目标数据均具有的字段确定为源数据和目标数据之间的共有特征以及源数据的独有特征，并将源数据具有且目标数据不具有的字段确定为源数据的独有特征。

可选地，特征预测模型为非线性模型。

可选地，该装置还包括：填充单元，用于基于附加特征数据对目标数据进行填充，以得到新的数据。

可选地，该装置还包括：机器学习单元，用于基于新的数据进行机器学习，以得到针对目标任务的机器学习模型。

根据本发明的第四个方面，还提供了一种特征预测模型的训练装置，包括：源数据集获取单元，用于获取源数据集；训练单元，用于基于源数据集训练特征预测模型，其中，特征预测模型用于基于源数据与目标数据之间的至少一部分共有特征，来预测源数据的至少一部分独有特征。

可选地，训练单元分别以源数据的至少一部分共有特征之中对应的一个或多个共有特征为样本特征，以源数据的至少一部分独有特征之中对应的一个或多个独有特征为样本标记，进行模型训练，以得到一个或多个特征预测模型

可选地，训练单元分别以源数据的至少一部分共有特征为样本特征，以源数据的所述至少一部分独有特征之中对应的单个独有特征为样本标记，进行模型训练，以得到一个或多个特征预测模型。

可选地，训练单元分别以源数据的至少一部分共有特征为样本特征，以源数据的所述至少一部分独有特征之中对应的至少两个独有特征为样本标记，进行模型训练，以得到一个或多个特征预测模型。

可选地，训练装置还包括：

特征筛选单元，用于从源数据的独有特征中选取源数据的至少一部分独有特征。

可选地，特征筛选单元包括：统计单元，用于统计各个独有特征的各个取值的概率；计算单元，用于基于各个取值的概率，计算各个独有特征的信息熵；以及选取单元，用于基于信息熵，选取部分独有特征。

可选地，训练装置还包括：特征确定单元，用于将源数据和目标数据均具有的字段确定为源数据和目标数据之间的共有特征，并将源数据具有且目标数据不具有的字段确定为源数据的独有特征。

可选地，特征预测模型为非线性模型。

根据本发明的第五个方面，还提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如本发明第一个方面或第二个方面述及的方法。

根据本发明的第六个方面，还提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如本发明第一个方面或第二个方面述及的方法。

本发明是以源数据和目标数据的共有特征为跳板，通过模型迁移的方式将目标数据需要的源数据中的独有特征迁移到目标数据上，整个过程源数据和目标数据并未接触，因此可以降低源数据被泄露的风险，大大拓展迁移学习技术的应用和发展。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本发明示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1示出了根据本发明示例性实施例的特征预测模型的训练方法的流程图。

图2示出了根据本发明示例性实施例的用于获取附加特征数据的方法的示意性流程图。

图3示出了根据本发明示例性实施例的特征数据迁移方案的实现流程图。

图4示出了根据本发明示例性实施例的特征预测模型的训练装置的框图。

图5示出了图4中的特征筛选单元可以具有的功能单元的框图。

图6示出了根据本发明示例性实施例的特征预测模型的训练装置的框图。

图7示出了图6中的特征筛选单元可以具有的功能单元的框图。

图8示出了根据本发明示例性实施例的可用于实现上述方法的计算设备的框图。

具体实施方式

现将详细参照本发明的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本发明。

在描述本发明之前，首先就本发明涉及的名词概念做简要说明。

迁移学习：迁移学习(Transfer Learning)的目标是将从一个环境中学到的知识用来提升新环境中的数据使用效果。

源数据集：用来迁移的数据源。

源数据：用来迁移的数据源中的数据。

目标数据集：迁移学习作用的数据集。

目标数据：迁移学习作用的数据集中的数据。

目标任务：目标数据上的一个或多个任务。

共有特征：源数据集和目标数据集共有的特征，可以将源数据集和目标数据集均具有的字段确定为共有特征，例如，可以将源数据集和目标数据集中含义相同的字段作为共有特征。

独有特征：数据集(源数据集或目标数据集)所独有的特征，区别于共有特征。

启发式算法：启发式算法是一种技术，这种技术使得在可接受的计算成本内去搜寻最好的解，但不一定能保证所得的可行解和最优解，甚至在多数情况下，无法阐述所得解同最优解的近似程度(典型的如贪心算法)。

待迁移集合：对源数据中的独有特征进行筛选后的独有特征集合，也即待预测的独有特征的集合。例如，可以是通过启发式算法对源数据中的独有特征进行筛选后的独有特征的集合。

负面迁移：源数据的独有特征迁移到目标数据后，对目标任务的效果造成了负面影响。

非线性模型：非线性模型(nonlinear model)指反映自变量与依变量(也即因变量)间非线性关系的数学表达式，它相对于线性模型而言，其依变量与自变量间不能在坐标空间表示为线性对应关系。非线性模型由于是输入变量的非线性组合表达，往往比线性模型更加复杂，同时能够携带更多的信息。

如背景技术部分所述，目前迁移学习过程中需要源数据和目标数据直接接触，这可能会导致源数据的隐私泄露，所以很多数据的拥有者不愿意开放自己的数据作为源数据，阻碍了迁移学习技术的推广应用。

针对于此，本发明提出了一种能够避免源数据和目标数据直接接触的特征数据迁移方案，在保护数据隐私的前提下还可以保证迁移学习的效果。在本发明实施例中，源数据和目标数据的分布具有相同的部分(共有特征)，也有不同的部分(独有特征)。本发明就是基于源数据和目标数据的共有特征，以及源数据的独有特征，以共有特征为样本特征，以源数据的独有特征为样本标记，训练预测源数据的独有特征的特征预测模型，通过模型迁移的方式，在目标数据集上利用目标数据的共有特征和迁移过来的特征预测模型，构建目标数据的特征，其中，构建的特征类似于源数据的独有特征。由此，可以将源数据的独有特征迁移到目标数据上，并且迁移过程中并没有直接接触源数据，因此可以在一定程度上避免源数据被泄露的风险。

举例来说，假设源数据集A来自搜索引擎，源数据包括用户的基本信息和搜索习惯，目标数据集B是某app的日志，包括用户的基本信息，那么就可以在A上以用户的基本信息为样本特征，以用户的搜索习惯为样本标记，训练用于基于基本信息预测搜索习惯的特征预测模型，然后把得到的特征预测模型应用到目标数据集B上，如此就可以通过B的用户信息还原搜索习惯。在这一过程中源数据集A和目标数据集B没有接触，而是以A、B的共有特征为跳板，通过模型迁移的方式将B需要的A中的独有特征(搜索习惯)迁移到B上，如此既保护了A的隐私又保证了B的可用性。

进一步地，源数据的独有特征数量可能比较庞大，对源数据的所有独有特征进行迁移需要大量的时间和计算资源；并且不是所有的独有特征都对目标数据有正面作用，如果不对源数据的独有特征进行筛选，还可能会对目标数据造成负面迁移(negativetransfer)；同时现有的技术很难在迁移学习中不使源数据和目标数据接触而对源数据的特征做出筛选。因此，本发明还提出，可以通过某种启发式算法对源数据的独有特征进行选择，以实现自动化地特征迁移。

在本发明的实施例中涉及的源数据和目标数据可分别是来自如下实体中的任一个或多个的数据：

来自银行的数据：如用户的登记信息、银行交易流水信息、存款信息、金融产品购买信息、票据信息(图像)等；

来自保险机构的数据：如投保人信息、保单信息、赔付保险的信息等；

来自医疗机构的数据：如病历信息、确诊信息、治疗信息等；

来自证券公司等其他金融机构的数据；如用户登记信息、金融产品交易信息、金融产品价格浮动信息等；

来自学校的数据：如生源信息、升学率、就业率、教学信息、教师信息等；

来自政府部门的数据：如社保信息、人力资源信息、市政资源信息、市政项目相关信息、财政相关信息、教育相关信息等；

来自互联网实体的数据：如用来自电商平台或app运营实体的用户登记信息、用户网络行为(搜索、浏览、收藏、购买、点击、支付等)信息，或来自搜索引擎的网络视频、音频、图片、文本等相关的数据等；

来自电信运营商的数据：如移动用户通信数据、固定网络或移动网络流量相关数据等；

来自传统工业企业的数据：工业控制数据如电网相关操作数据、风力发电机组操控数据、空调***操控数据、矿井组操控数据等等。

从类型上，在本发明的实施例中涉及的源数据和目标数据可以是视频数据、图像数据、语音数据、文本数据、格式化的表单数据等。

下面就本公开涉及的各方面做进一步说明。

参见图1，在步骤S110，获取源数据集。

在步骤S120，基于源数据集训练特征预测模型。

在基于源数据集训练特征预测模型前，可以首先根据源数据集和目标数据集，确定源数据与目标数据之间的共有特征以及源数据具有而目标数据不具有的独有特征。可选地，还可以确定目标数据具有而源数据不具有的独有特征，以便后续有针对性的使用目标数据的独有特征，应理解，本发明的示例性实施例也可完全不确定目标数据的任何独有特征。

在本发明中，源数据和目标数据可以是具有各种字段的数据记录，每条源数据和目标数据可以分别包括多个字段，不同的字段可以表征不同的含义，如性别、年龄、交易金额等。因此可以将源数据和目标数据均具有的相同字段确定为源数据和所述目标数据之间的共有特征，并将源数据具有且目标数据不具有的字段确定为源数据的独有特征。也就是说，每个字段可以视为一个特征，可以根据目标数据和源数据各自所具有的字段，将源数据和目标数据都具有的用于表征相同含义的字段作为共有特征，将源数据具有而目标数据不具有的用于表征某种独有含义的字段作为源数据的独有特征。可选地，还可以将目标数据具有而源数据不具有的用于表征某种独有含义的字段作为目标数据的独有特征。

由此，可以仅从目标数据提取其具有的字段的含义(如“性别”、“年龄”等字段)，而非具体数据，来与源数据具有的字段的含义进行比较，以确定共有特征和源数据的独有特征。这一过程中双方并没有具体数据的接触，因此不会发生数据泄露。这里，可通过数据记录的字段名称、格式、字段含义说明和/或字段值示例等信息来确定字段的含义是否相同。

在确定了源数据和目标数据之间的共有特征以及源数据的独有特征后，可以分别以源数据的至少一部分共有特征之中对应的一个或多个共有特征为样本特征，以源数据的至少一部分独有特征之中对应的一个或多个独有特征为样本标记，进行模型训练，以得到一个或多个特征预测模型。

作为本发明的一个示例，特征预测模型可以用于对单个独有特征进行预测，也可以用于对多个独有特征进行预测。例如，可以以源数据的至少一部分共有特征为样本特征，以源数据的至少一部分独有特征之中对应的单个独有特征为样本标记，进行模型训练，以得到一个或多个特征预测模型。再例如，也可以以源数据的至少一部分共有特征为样本特征，以源数据的至少一部分独有特征之中对应的至少两个独有特征为样本标记，进行模型训练，以得到一个或多个特征预测模型。

并且，所训练的特征预测模型优选地可以是非线性模型，例如，可以是GBRT(迭代决策树)、深度神经网络等等。由此可以更好地挖掘源数据中共有特征和独有特征之间的内在关联关系，使得预测更有意义。

进一步地，考虑到源数据的独有特征数量可能比较庞大，如果对源数据的所有独有特征进行迁移需要大量的时间和计算资源，并且不是所有的独有特征都对目标数据起到正面作用。因此，可以对源数据的独有特征进行筛选，仅选出部分独有特征作为待预测的独有特征的集合，也即待迁移集合，以提高计算效率，减少负面迁移。

为了实现不将源数据和目标数据接触而对源数据的独有特征进行筛选，本发明提出，可以基于启发式算法从源数据的所有独有特征中选取部分独有特征。也就是说，可以不依据目标数据，或者不依据目标数据上的具体目标任务，而基于启发式算法从源数据的独有特征中自动选取部分独有特征。

作为本发明的一个示例，可以衡量各个独有特征的信息熵，如可以统计源数据集中各个独有特征的各个取值的概率，基于各个取值的概率，计算各个独有特征的信息熵，其中，信息熵的计算公式为现有成熟技术，此处不再赘述。在得到各个独有特征的信息熵后，可以基于信息熵，选取部分独有特征，例如，可以根据信息熵由大到小的排名，选取排名靠前的预定数量个独有特征。

作为本发明的另一个示例，还可以衡量各个独有特征的重要性，基于重要性从多个独有特征中选取部分独有特征。例如，可以衡量独有特征相对于任务的重要性，其中，此处述及的任务可以是与目标数据上的目标任务相同或相似的任务。可以根据目标数据上的目标任务，设定一个与目标任务相同或相似的任务，并将该任务应用在源数据集上，以确定各个独有特征相对于该任务的重要性，独有特征相对于该任务的重要性就可以视为独有特征相对于目标数据上的目标任务的重要性。

至此，结合图1就本发明的特征预测模型的训练方法做了详细说明。图1所示的方法可以由源数据的拥有者执行，源数据的拥有者可以基于图1所示的方法训练特征预测模型，并通过对外提供特征预测模型，来提供特征数据迁移服务、数据交换服务等等。例如，源数据的拥有者可以将训练得到的特征预测模型提供给目标数据的拥有者，如此通过对外提供特征预测模型而非源数据，可以在实现特征数据迁移(或者数据交换)的同时，降低源数据被泄露的风险，从而可以大大拓展迁移学习技术的应用和发展。

参见图2，在步骤S210，获取特征预测模型。

特征预测模型基于源数据集训练而成。其中，特征预测模型的样本特征包括源数据与目标数据之间的至少一部分共有特征，特征预测模型的样本标记为源数据的至少一部分独有特征。其中，关于特征预测模型及其训练过程、以及源数据的独有特征的筛选过程可以参见上文结合图1的描述，此处不再赘述。

在本实施例中，可以从外部接收特征预测模型，如可以从源数据的拥有者接收特征预测模型。另外，在源数据的拥有者允许的情况下，也可以获取源数据，基于源数据集训练特征预测模型。例如，可以由源数据的拥有者信任的第三方在保证数据不接触的情况下，获取源数据，并基于源数据集训练特征预测模型。

如上文所述，特征预测模型用于基于源数据与目标数据之间的至少一部分共有特征，来预测源数据的至少一部分独有特征。可以获取一个或多个特征预测模型，每个特征预测模型的样本特征可以为所述至少一部分共有特征之中对应的一个或多个共有特征，每个特征预测模型的样本标记可以为所述至少一部分独有特征之中对应的一个或多个独有特征。这里，可根据任何适当的方式来设置每个特征预测模型的样本特征部分和标记部分。

因此，特征预测模型可以用于对源数据的单个独有特征进行预测，也可以用于对源数据的多个(至少两个)独有特征进行预测。作为本发明的一个示例，在获取特在预测模型时，可以获取一个或多个特征预测模型，每个特征预测模型可以用于预测源数据的至少一部分独有特征之中对应的单个独有特征，特征预测模型的样本特征为至少一部分共有特征，特征预测模型的样本标记为单个独有特征。作为本发明的另一个示例，也可以获取一个或多个特征预测模型，每个特征预测模型用于预测源数据的至少一部分独有特征之中对应的至少两个独有特征，特征预测模型的样本特征为至少一部分共有特征，特征预测模型的样本标记为至少两个独有特征。

在步骤S220，获取目标数据集。

在步骤S230，针对目标数据集中的每条目标数据，将目标数据中的至少一部分共有特征输入特征预测模型，以得到特征预测模型针对输入的至少一部分共有特征所预测出的至少一部分独有特征。

此处主要是通过模型迁移的方式，将基于源数据集训练得到的特征预测模型作用到目标数据集上，利用目标数据的共有特征，预测出目标数据上与源数据的独有特征类似的特征。由此，可以学习到源数据的独有特征，并且学习过程中源数据和目标数据并未接触，从而可以降低源数据被泄露的风险。

在步骤S240，将预测出的至少一部分独有特征作为目标数据的附加特征数据。

预测出的独有特征是数据级别的信息，如可以是用户的兴趣爱好、搜索习惯等信息。因此，可以将预测出的至少一部分独有特征作为目标数据的附加特征数据。

在本发明中，预测出的是数据级别的信息，理论上可不依赖目标数据的任何预测目标，这部分信息在目标数据集中不限于进行机器学习，可执行任何合适的应用。例如，可以基于附加特征数据对目标数据进行填充，以得到新的数据。目标数据原本可以表示为“共有特征数据+目标数据的独有特征数据”，基于附加特征数据对目标数据进行填充后得到的新的数据可以表示为“共有特征数据+目标数据的独有特征数据+附加特征数据”，由此，可以实现目标数据的扩充。并且，对于新数据，还可以进行机器学习，以得到针对目标任务的机器学习模型。

在本发明的实施例中，所述针对目标任务的机器学习模型可被应用于如下场景中的任一场景：

图像处理场景，包括：光学字符识别OCR、人脸识别、物体识别和图片分类；更具体地举例来说，OCR可应用于票据(如***)识别、手写字识别等，人脸识别可应用安防等领域，物体识别可应用于自动驾驶场景中的交通标志识别，图片分类可应用于电商平台的“拍照购”、“找同款”等。

语音识别场景，包括可通过语音进行人机交互的产品，如手机的语音助手(如苹果手机的Siri)、智能音箱等；

自然语言处理场景，包括：审查文本(如合同、法律文书和客服记录等)、垃圾内容识别(如垃圾短信识别)和文本分类(情感、意图和主题等)；

自动控制场景，包括：矿井组调节操作预测、风力发电机组调节操作预测和空调***调节操作预测；具体的对于矿井组可预测开采率高的一组调节操作，对于风力发电机组可预测发电效率高的一组调节操作，对于空调***，可以预测满足需求的同时节省能耗的一组调节操作；

智能问答场景，包括：聊天机器人和智能客服；

业务决策场景，包括：金融科技领域、医疗领域和市政领域的场景，其中：

金融科技领域包括：营销(如优惠券使用预测、广告点击行为预测、用户画像挖掘等)与获客、反欺诈、反洗钱、承保和信用评分、商品价格预测；

医疗领域包括：疾病筛查和预防、个性化健康管理和辅助诊断；

市政领域包括：社会治理与监管执法、资源环境和设施管理、产业发展和经济分析、公众服务和民生保障、智慧城市(公交、网约车、共享单车等各类城市资源的调配和管理)；

推荐业务场景，包括：新闻、广告、音乐、咨询、视频和金融产品(如理财、保险等)的推荐；

搜索场景，包括：网页搜索、图像搜索、文本搜索、视频搜索等；

异常行为检测场景，包括：国家电网客户用电异常行为检测、网络恶意流量检测、操作日志中的异常行为检测等。

至此，结合图2就本发明的用于获取附加特征数据的方法做了详细说明。图2所示的方法可以由目标数据的拥有者，或者目标数据信任的第三方执行，目标数据的拥有者或第三方可以从源数据的拥有者获取特征预测模型，并基于特征预测模型将源数据中的独有特征迁移到目标数据上。整个迁移过程，并没有接触到源数据，因此可以降低源数据被泄露的风险。并且，迁移的是数据级别的信息，迁移过程理论上可以不依赖目标数据的任何预测目标，因此迁移后的信息在目标数据集中不限于进行机器学习，可执行任何合适的应用。

如图3所示，首先可以通过源数据和目标数据的字段名、业务含义和/或格式来确定源数据和目标数据的共有特征、源数据的独有特征以及目标数据的独有特征。然后可以通过启发式的算法对源数据的独有特征进行筛选，选出待迁移的特征集合作为待迁移集合。在源数据上，可以对待迁移集合中的每一个特征用共有特征训练一个非线性预测模型(如GBRT，深度神经网络等)。然后可以将这些预测模型拿到目标数据所在的环境，使用目标数据上的共有特征作为输入进行模型预测，得到的输出就是从源数据迁移而来的特征。

本发明可以在保护数据隐私的前提下将源数据独有的信息迁移到目标数据中，从而提升目标数据集上的目标任务(如机器学习任务)的效果。

本发明的特征预测模型的训练方法还可以实现为一种特征预测模型的训练装置。图4示出了根据本发明示例性实施例的特征预测模型的训练装置的框图。其中，训练装置的功能单元可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图4所描述的功能单元可以组合起来或者划分成子单元，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能单元的任何可能的组合、或者划分、或者更进一步的限定。

下面就训练装置可以具有的功能单元以及各功能单元可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参见图4，训练装置400包括源数据集获取单元410和训练单元420。

源数据集获取单元410用于获取源数据集。训练单元420用于基于源数据集训练特征预测模型，其中，特征预测模型用于基于源数据与目标数据之间的至少一部分共有特征，来预测源数据的至少一部分独有特征。

训练单元420可以分别以源数据的所述至少一部分共有特征之中对应的一个或多个共有特征为样本特征，以源数据的所述至少一部分独有特征之中对应的一个或多个独有特征为样本标记，进行模型训练，以得到一个或多个特征预测模型。

在本发明的一个实施例中，训练单元420可以分别以源数据的至少一部分共有特征为样本特征，以源数据的至少一部分独有特征之中对应的单个独有特征为样本标记，进行模型训练，以得到一个多个特征预测模型。

在本发明的另一个实施例中，训练单元420还可以分别以源数据的至少一部分共有特征为样本特征，以源数据的至少一部分独有特征之中对应的至少两个独有特征为样本标记，进行模型训练，以得到一个或多个特征预测模型。

如图4所示，训练装置400还可以可选地包括图中虚线框所示的特征筛选单元430。特征筛选单元430用于从源数据的独有特征中选取源数据的所述至少一部分独有特征，所选取的独有特征可以作为待预测(待迁移)的独有特征的集合。其中，特征筛选单元430可以基于启发式算法从源数据的独有特征中选取部分独有特征。

作为本发明的一个示例，如图5所示，特征筛选单元430可以包括统计单元4310、计算单元4320以及选取单元4330。统计单元4310用于统计各个独有特征的各个取值的概率。计算单元4320用于基于各个取值的概率，计算各个述独有特征的信息熵。选取单元4330用于基于信息熵，选取部分独有特征。

另外，特征筛选单元430也可以基于各个独有特征相对于任务的重要性，从源数据的独有特征中选取部分独有特征。其中，此处述及的任务可以是与目标数据上的目标任务相同或相似的任务。可以根据目标数据上的目标任务，设定一个与目标任务相同或相似的任务，并将该任务应用在源数据集上，以确定各个独有特征相对于该任务的重要性，独有特征相对于该任务的重要性就可以视为独有特征相对于目标数据上的目标任务的重要性。

如图4所示，训练装置400还可以可选地包括图中虚线框所示的特征确定单元440。特征确定单元440用于将源数据和目标数据均具有的字段确定为源数据和目标数据之间的共有特征，并将源数据具有且目标数据不具有的字段确定为源数据的独有特征。

本发明的用于获取附加特征数据的方法还可以实现为一种用于获取附加特征数据的装置。图6示出了根据本发明示例性实施例的特征预测模型的训练装置的框图。其中，装置的功能单元可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图6所描述的功能单元可以组合起来或者划分成子单元，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能单元的任何可能的组合、或者划分、或者更进一步的限定。

下面就装置可以具有的功能单元以及各功能单元可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参见图6，用于获取附加特征数据的装置600包括预测模型获取单元610、目标数据集获取单元620、预测单元630以及特征数据确定单元640。

预测模型获取单元610用于获取特征预测模型，其中，特征预测模型基于源数据集训练而成，特征预测模型用于基于源数据与目标数据之间的至少一部分共有特征，来预测源数据的至少一部分独有特征。预测模型获取单元610可以从外部接收特征预测模型，或者，也可以获取源数据集，基于源数据集训练特征预测模型。

预测模型获取单元610可以获取一个或多个特征预测模型，每个特征预测模型的样本特征为所述至少一部分共有特征之中对应的一个或多个共有特征，每个特征预测模型的样本标记为所述至少一部分独有特征之中对应的一个或多个独有特征。

作为本发明的一个示例，预测模型获取单元610可以获取一个或多个特征预测模型，每个特征预测模型用于预测所述至少一部分独有特征之中对应的单个独有特征，特征预测模型的样本特征为至少一部分共有特征，特征预测模型的样本标记为单个独有特征。

作为本发明的另一个示例，预测模型获取单元610也可以获取一个或多个特征预测模型，每个特征预测模型用于预测所述至少一部分独有特征之中对应的至少两个独有特征，特征预测模型的样本特征为至少一部分共有特征，特征预测模型的样本标记为至少两个独有特征。

目标数据集获取单元620用于获取目标数据集。预测单元630用于针对目标数据集中的每条目标数据，将目标数据中的至少一部分共有特征输入特征预测模型，以得到特征预测模型针对输入的至少一部分共有特征所预测出的至少一部分独有特征。特征数据确定单元640用于将预测出的至少一部分独有特征作为目标数据的附加特征数据。

如图6所示，装置600还可以可选地包括图中虚线框所示的特征筛选单元650。特征筛选单元650用于从源数据的独有特征中选取源数据的所述至少一部分独有特征。其中，特征筛选单元650可以基于启发式算法从源数据的独有特征中选取部分独有特征。

作为本发明的一个示例，如图7所示，特征筛选单元650可以包括统计单元6510、计算单元6520以及选取单元6530。统计单元6510用于统计各个独有特征的各个取值的概率。计算单元6520用于基于各个取值的概率，计算各个独有特征的信息熵。选取单元6530用于基于信息熵，选取部分独有特征。

作为本发明的另一个示例，特征筛选单元650还可以基于各独有特征相对于任务的重要性，从源数据的独有特征中选取部分独有特征。其中，此处述及的任务可以是与目标数据上的目标任务相同或相似的任务。可以根据目标数据上的目标任务，设定一个与目标任务相同或相似的任务，并将该任务应用在源数据集上，以确定各个独有特征相对于该任务的重要性，独有特征相对于该任务的重要性就可以视为独有特征相对于目标数据上的目标任务的重要性。

如图6所示，获取附加特征数据的装置600还可以可选地包括图中虚线框所示的特征确定单元660。特征确定单元660用于将源数据和目标数据均具有的字段确定为源数据和目标数据之间的共有特征以及源数据的独有特征，并将源数据具有且目标数据不具有的字段确定为源数据的独有特征。

如图6所示，获取附加特征数据的装置600还可以可选地包括图中虚线框所示的数据填充单元670，用于基于附加特征数据对目标数据进行填充，以得到新的数据。

如图6所示，获取附加特征数据的装置600还可以可选地包括图中虚线框所示的机器学习单元680，用于基于新的数据进行机器学习，以得到针对目标任务的机器学习模型。

图8示出了根据本发明示例性实施例的可用于实现上述方法的计算设备的结构示意图。

参见图8，计算设备800包括存储器810和处理器820。

处理器820可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器820可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器820可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器810可以包括各种类型的存储单元，例如***内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。***内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。***内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器810可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器810可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器810上存储有可执行代码，当可执行代码被处理器820执行时，可以使处理器820执行上文述及的模型训练方法或用于获取附加特征数据的方法。

需要说明的是，本申请的模型训练及获取附加特征数据的方法和装置可应用于的场景包括但不限于以下场景：图像处理场景、语音识别场景、自然语言处理场景、自动控制场景、智能问答场景、业务决策场景、推荐业务场景、搜索场景和异常行为检测场景。上述各类场景下的更具体应用场景详见前面的描述。并且本申请的模型训练及获取附加特征数据的方法和装置，在应用于不同的场景时，总体执行方案并无差别，只是在不同场景下针对的数据不同，因此本领域的技术人员基于前述的方案公开可以毫无障碍地将本申请的方案应用于不同的场景，因此不需要对每个场景一一进行说明。

上文中已经参考附图详细描述了根据本发明的模型训练及用于获取附加特征数据的方法、装置以及计算设备。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于获取附加特征数据的方法，包括：

获取特征预测模型，其中，所述特征预测模型基于源数据集训练而成，用于基于源数据与目标数据之间的至少一部分共有特征，来预测源数据的至少一部分独有特征；

获取目标数据集；

针对目标数据集中的每条目标数据，将所述目标数据中的所述至少一部分共有特征输入特征预测模型，以得到所述特征预测模型针对输入的所述至少一部分共有特征所预测出的至少一部分独有特征；

将预测出的所述至少一部分独有特征作为所述目标数据的附加特征数据。

2.如权利要求1所述的方法，其中，获取特征预测模型的步骤包括：从外部接收特征预测模型；或者，获取特征预测模型的步骤包括：获取源数据集，基于所述源数据集训练特征预测模型。

3.如权利要求1所述的方法，其中，获取特征预测模型的步骤包括：

获取一个或多个特征预测模型，其中，每个特征预测模型的样本特征为所述至少一部分共有特征之中对应的一个或多个共有特征，每个特征预测模型的样本标记为所述至少一部分独有特征之中对应的一个或多个独有特征。

4.如权利要求1所述的方法，其中，获取特征预测模型的步骤包括：

获取一个或多个特征预测模型，每个所述特征预测模型用于预测所述至少一部分独有特征之中对应的单个独有特征，所述特征预测模型的样本特征为所述至少一部分共有特征，所述特征预测模型的样本标记为所述单个独有特征。

5.如权利要求1所述的方法，其中，获取特征预测模型的步骤包括：

获取一个或多个特征预测模型，每个所述特征预测模型用于预测所述至少一部分独有特征之中对应的至少两个独有特征，所述特征预测模型的样本特征为所述至少一部分共有特征，所述特征预测模型的样本标记为所述至少两个独有特征。

6.一种特征预测模型的训练方法，包括：

获取源数据集；

基于所述源数据集训练特征预测模型，其中，所述特征预测模型用于基于源数据与目标数据之间的至少一部分共有特征，来预测源数据的至少一部分独有特征。

7.一种用于获取附加特征数据的装置，包括：

预测模型获取单元，用于获取特征预测模型，其中，所述特征预测模型基于源数据集训练而成，所述特征预测模型用于基于源数据与目标数据之间的至少一部分共有特征，来预测源数据的至少一部分独有特征；

目标数据集获取单元，用于获取目标数据集；

预测单元，用于针对目标数据集中的每条目标数据，将所述目标数据中的所述至少一部分共有特征输入特征预测模型，以得到所述特征预测模型针对输入的所述至少一部分共有特征所预测出的至少一部分独有特征；以及

特征数据确定单元，用于将预测出的所述至少一部分独有特征作为所述目标数据的附加特征数据。

8.一种特征预测模型的训练装置，包括：

源数据集获取单元，用于获取源数据集；

训练单元，用于基于所述源数据集训练特征预测模型，其中，所述特征预测模型用于基于源数据与目标数据之间的至少一部分共有特征，来预测源数据的至少一部分独有特征。

9.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-6中任何一项所述的方法。

10.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至6中任一项所述的方法。