CN108288161A

CN108288161A - 基于机器学习来提供预测结果的方法及***

Info

Publication number: CN108288161A
Application number: CN201710016236.8A
Authority: CN
Inventors: 黄晶; 陈雨强
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2017-01-10
Filing date: 2017-01-10
Publication date: 2018-07-17

Abstract

提供一种基于机器学习来提供预测结果的方法及***，所述方法包括：(A)获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息；(B)获取所述历史样例关于预测问题的结果信息，其中，针对所述历史样例之中不具有关于预测问题的真实结果的历史样例，将历史样例的预测结果作为历史样例的结果信息；(C)基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本；(D)利用基于机器学习技术训练出的预测模型，针对待预测样例的预测样本来提供待预测样例的预测结果。根据所述方法和***，能够适当地参考历史样例和待预测样例这两者来针对待预测样例给出预测结果。

Description

基于机器学习来提供预测结果的方法及***

技术领域

本发明总体说来涉及人工智能领域，更具体地说，涉及一种基于机器学习来提供待预测样例关于预测问题的预测结果的方法及***。

背景技术

在实践中，为了基于机器学习技术来提供待预测样例关于预测问题的预测结果，除了需要待预测样例自身的属性信息以外，常常还需要获取相关的历史信息，即，在待预测样例之前发生的历史样例的属性信息。例如，如果想利用机器学习模型来预测用户的当前交易是否为欺诈交易，还需要获取用户的历史交易的情况，并根据当前交易与历史交易的对比来给出预测结果。

然而，在很多情况下，历史样例的属性信息在应用时，很容易出现各种问题。比如，在上述欺诈交易的示例中，现实中常常发生连续欺诈交易的现象(以***盗刷为例，如果第一笔盗刷没有被发现，则会接连发生多起盗刷)，此时，历史样例中混入了异常样例，导致历史样例与当前样例之间的对比关系无法有效地反映出正常样例与异常样例之间的对比关系，使得模型无法有效地工作。例如，假设机器学习模型用于预测***欺诈交易，模型的正样本对应于当前样例为异常样例，而模型的负样本对应于当前样例为正常样例。进一步地，假设模型的样本特征中涉及上一笔交易的刷卡地点与当前笔交易的刷卡地点，那么对于作为正样本的连续两次盗刷之中的第二次盗刷而言，模型很难通过该样本学习到如何准确预测盗刷。具体说来，若某***用户人在中国，而他的***在美国被连续盗刷了两次，那么第二次盗刷与第一次盗刷同样都作为模型的正样本。然而，对于与第二次盗刷对应的正样本而言，上一笔刷卡地点为美国，而当前笔刷卡的地点同样是在美国，在这种样例下，模型会容易倾向于认为上述第二次在美国刷卡的样例(即，连续两次在美国刷卡中的第二次刷卡)容易发生欺诈，而这是与常识不符的，由此可见，按照这种方式训练出的模型难以有效地预测欺诈交易。

针对上述问题，会考虑仅使用符合条件的历史样例，例如，在上述关于欺诈交易的示例中，仅使用历史上的正常交易而剔除掉历史上的欺诈交易。然而，在执行预测的当时(例如，在线预估的场景中)，由于近期交易的交易状态尚不可得，导致无法从近期交易中筛选出正常交易；另一方面，近期交易又是能够帮助判断当前交易是否为欺诈交易的关键因素，如果直接忽略掉交易状态未知的所有近期交易则会严重影响模型的效果，因此，仅使用符合条件的历史样例的方案在现实中可行性较差，难以获得有效的预测结果。

综上所述，在面对机器学习的具体问题时，需要从模型设计角度进行改进，以在有限的计算资源(例如，硬件资源在处理数据的容量和速度方面的限制)和/或数据资源(例如，缺乏足够的用于训练机器学习模型的训练样本)下有效解决历史样例状态不明的问题，进而确保机器学习模型的预测效果。

发明内容

本发明的示例性实施例旨在克服基于机器学习模型的现有预测方案难以有效地从历史样例进行学习的缺陷。

根据本发明的示例性实施例，提供一种基于机器学习来提供待预测样例关于预测问题的预测结果的方法，包括：(A)获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息；(B)获取所述历史样例关于预测问题的结果信息，其中，针对所述历史样例之中不具有关于预测问题的真实结果的历史样例，将历史样例的预测结果作为历史样例的结果信息；(C)基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本；以及(D)利用基于机器学习技术训练出的预测模型，针对待预测样例的预测样本来提供待预测样例的预测结果。

可选地，在所述方法中，在步骤(B)中，还获取历史样例的结果信息的置信度，并且，在步骤(C)中，基于获取的待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本。

可选地，在所述方法中，在步骤(B)中，所述历史样例的预测结果由所述预测模型或与所述预测模型的上一轮迭代对应的前次模型所提供。

可选地，在所述方法中，在步骤(B)中，针对具有真实结果的历史样例，将历史样例的真实结果作为历史样例的结果信息。

可选地，在所述方法中，所述预测模型具有以下训练过程，在所述训练过程中，按照与预测样本一致的方式，将训练样本所基于的历史样例的真实结果或预测结果作为所述历史样例的结果信息，其中，所述训练样本所基于的历史样例的预测结果由当前训练出的预测模型来提供。

可选地，在所述方法中，在所述训练过程中，所述预测模型针对训练样本进行迭代训练，使得训练样本所基于的历史样例的预测结果随着迭代而不断更新。

可选地，所述方法在线提供待预测样例关于预测问题的预测结果。

可选地，在所述方法中，通过以下方式中的至少一种来生成待预测样例的预测样本的特征：(C1)根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度来筛选出至少一部分历史样例，并基于筛选出的所述至少一部分历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征；(C2)根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度对所述历史样例的相应属性信息进行加权，并基于加权后的历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征；以及(C3)分别基于待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本的特征。

可选地，在所述方法中，待预测样例对应于当前交易，历史样例对应于在当前交易之前发生的预定数量的先前交易和/或在当前交易之前的预定时间段内发生的先前交易，预测问题为相关交易是否为欺诈交易。

可选地，在所述方法中，在步骤(B)中，针对不具有真实结果的历史样例，基于预测模型的算法或独立于预测模型的算法来获得历史样例的预测结果的置信度，作为历史样例的结果信息的置信度；针对具有真实结果的历史样例，将历史样例的真实结果的置信度设置为表示高置信水平的预设值，作为历史样例的结果信息的置信度。

可选地，所述方法还包括：(E)接收待预测样例关于预测问题的真实结果，其中，所述真实结果连同相应的待预测样例被用于训练所述预测模型。

根据本发明的另一示例性实施，提供一种基于机器学习来提供待预测样例关于预测问题的预测结果的***，包括：属性信息获取装置，用于获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息；结果信息获取装置，用于获取所述历史样例关于预测问题的结果信息，其中，针对所述历史样例之中不具有关于预测问题的真实结果的历史样例，结果信息获取装置将历史样例的预测结果作为历史样例的结果信息；样本生成装置，用于基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本；以及预测结果提供装置，用于利用基于机器学习技术训练出的预测模型，针对待预测样例的预测样本来提供待预测样例的预测结果。

可选地，在所述***中，结果信息获取装置还获取历史样例的结果信息的置信度，并且，样本生成装置基于获取的待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本。

可选地，在所述***中，由结果信息获取装置获取的所述历史样例的预测结果由所述预测模型或与所述预测模型的上一轮迭代对应的前次模型所提供。

可选地，在所述***中，针对具有真实结果的历史样例，结果信息获取装置将历史样例的真实结果作为历史样例的结果信息。

可选地，在所述***中，所述预测模型具有以下训练过程，在所述训练过程中，按照与预测样本一致的方式，将训练样本所基于的历史样例的真实结果或预测结果作为所述历史样例的结果信息，其中，所述训练样本所基于的历史样例的预测结果由当前训练出的预测模型来提供。

可选地，在所述***中，在所述训练过程中，所述预测模型针对训练样本进行迭代训练，使得训练样本所基于的历史样例的预测结果随着迭代而不断更新。

可选地，在所述***中，所述***在线提供待预测样例关于预测问题的预测结果。

可选地，在所述***中，样本生成装置通过以下方式中的至少一种来生成待预测样例的预测样本的特征：根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度来筛选出至少一部分历史样例，并基于筛选出的所述至少一部分历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征；根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度对所述历史样例的相应属性信息进行加权，并基于加权后的历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征；以及分别基于待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本的特征。

可选地，在所述***中，待预测样例对应于当前交易，历史样例对应于在当前交易之前发生的预定数量的先前交易和/或在当前交易之前的预定时间段内发生的先前交易，预测问题为相关交易是否为欺诈交易。

可选地，在所述***中，针对不具有真实结果的历史样例，结果信息获取装置基于预测模型的算法或独立于预测模型的算法来获得历史样例的预测结果的置信度，作为历史样例的结果信息的置信度；针对具有真实结果的历史样例，结果信息获取装置将历史样例的真实结果的置信度设置为表示高置信水平的预设值，作为历史样例的结果信息的置信度。

可选地，所述***还包括：反馈装置，用于接收待预测样例关于预测问题的真实结果，其中，所述真实结果连同相应的待预测样例被用于训练所述预测模型。

根据本发明的示例性实施例，提供一种基于机器学习来提供待预测样例关于预测问题的预测结果的计算机可读介质，其中，在所述计算机可读介质上记录有用于执行以下步骤的计算机程序：(A)获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息；(B)获取所述历史样例关于预测问题的结果信息，其中，针对所述历史样例之中不具有关于预测问题的真实结果的历史样例，将历史样例的预测结果作为历史样例的结果信息；(C)基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本；以及(D)利用基于机器学习技术训练出的预测模型，针对待预测样例的预测样本来提供待预测样例的预测结果。

可选地，在所述计算机可读介质中，在步骤(B)中，还获取历史样例的结果信息的置信度，并且，在步骤(C)中，基于获取的待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本。

可选地，在所述计算机可读介质中，在步骤(B)中，所述历史样例的预测结果由所述预测模型或与所述预测模型的上一轮迭代对应的前次模型所提供。

可选地，在所述计算机可读介质中，在步骤(B)中，针对具有真实结果的历史样例，将历史样例的真实结果作为历史样例的结果信息。

可选地，在所述计算机可读介质中，所述预测模型具有以下训练过程，在所述训练过程中，按照与预测样本一致的方式，将训练样本所基于的历史样例的真实结果或预测结果作为所述历史样例的结果信息，其中，所述训练样本所基于的历史样例的预测结果由当前训练出的预测模型来提供。

可选地，在所述计算机可读介质中，在所述训练过程中，所述预测模型针对训练样本进行迭代训练，使得训练样本所基于的历史样例的预测结果随着迭代而不断更新。

可选地，在所述计算机可读介质中，所述计算机程序被执行以在线提供待预测样例关于预测问题的预测结果。

可选地，在所述计算机可读介质中，通过以下方式中的至少一种来生成待预测样例的预测样本的特征：(C1)根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度来筛选出至少一部分历史样例，并基于筛选出的所述至少一部分历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征；(C2)根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度对所述历史样例的相应属性信息进行加权，并基于加权后的历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征；以及(C3)分别基于待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本的特征。

可选地，在所述计算机可读介质中，待预测样例对应于当前交易，历史样例对应于在当前交易之前发生的预定数量的先前交易和/或在当前交易之前的预定时间段内发生的先前交易，预测问题为相关交易是否为欺诈交易。

可选地，在所述计算机可读介质中，在步骤(B)中，针对不具有真实结果的历史样例，基于预测模型的算法或独立于预测模型的算法来获得历史样例的预测结果的置信度，作为历史样例的结果信息的置信度；针对具有真实结果的历史样例，将历史样例的真实结果的置信度设置为表示高置信水平的预设值，作为历史样例的结果信息的置信度。

可选地，在所述计算机可读介质中，所述计算机程序还执行以下步骤：(E)接收待预测样例关于预测问题的真实结果，其中，所述真实结果连同相应的待预测样例被用于训练所述预测模型。

根据本发明的另一示例性实施，提供一种基于机器学习来提供待预测样例关于预测问题的预测结果的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：(A)获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息；(B)获取所述历史样例关于预测问题的结果信息，其中，针对所述历史样例之中不具有关于预测问题的真实结果的历史样例，将历史样例的预测结果作为历史样例的结果信息；(C)基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本；以及(D)利用基于机器学习技术训练出的预测模型，针对待预测样例的预测样本来提供待预测样例的预测结果。

可选地，在所述计算装置中，还获取历史样例的结果信息的置信度，并且，在步骤(C)中，基于获取的待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本。

可选地，在所述计算装置中，在步骤(B)中，所述历史样例的预测结果由所述预测模型或与所述预测模型的上一轮迭代对应的前次模型所提供。

可选地，在所述计算装置中，在步骤(B)中，针对具有真实结果的历史样例，将历史样例的真实结果作为历史样例的结果信息。

可选地，在所述计算装置中，所述预测模型具有以下训练过程，在所述训练过程中，按照与预测样本一致的方式，将训练样本所基于的历史样例的真实结果或预测结果作为所述历史样例的结果信息，其中，所述训练样本所基于的历史样例的预测结果由当前训练出的预测模型来提供。

可选地，在所述计算装置中，在所述训练过程中，所述预测模型针对训练样本进行迭代训练，使得训练样本所基于的历史样例的预测结果随着迭代而不断更新。

可选地，在所述计算装置中，所述计算装置在线提供待预测样例关于预测问题的预测结果。

可选地，在所述计算装置中，通过以下方式中的至少一种来生成待预测样例的预测样本的特征：(C1)根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度来筛选出至少一部分历史样例，并基于筛选出的所述至少一部分历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征；(C2)根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度对所述历史样例的相应属性信息进行加权，并基于加权后的历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征；以及(C3)分别基于待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本的特征。

可选地，在所述计算装置中，待预测样例对应于当前交易，历史样例对应于在当前交易之前发生的预定数量的先前交易和/或在当前交易之前的预定时间段内发生的先前交易，预测问题为相关交易是否为欺诈交易。

可选地，在所述计算装置中，在步骤(B)中，针对不具有真实结果的历史样例，基于预测模型的算法或独立于预测模型的算法来获得历史样例的预测结果的置信度，作为历史样例的结果信息的置信度；针对具有真实结果的历史样例，将历史样例的真实结果的置信度设置为表示高置信水平的预设值，作为历史样例的结果信息的置信度。

可选地，计算装置还包括：(E)接收待预测样例关于预测问题的真实结果，其中，所述真实结果连同相应的待预测样例被用于训练所述预测模型。

在根据本发明示例性实施例的基于机器学习来提供预测结果的方法及***，可有效地获取历史样例关于预测问题的结果信息，并将历史样例的结果信息融合到待预测样例的样本特征中，从而适当地参考历史样例和待预测样例这两者来针对待预测样例给出预测结果。

附图说明

从下面结合附图对本发明实施例的详细描述中，本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1示出根据本发明示例性实施例的基于机器学习来提供预测结果的***的框图；

图2示出根据本发明另一示例性实施例的基于机器学习来提供预测结果的***的框图；

图3示出根据本发明示例性实施例的基于机器学习来提供预测结果的方法的流程图；

图4示出根据本发明示例性实施例的训练预测模型的方法的流程图；

图5示出根据本发明另一示例性实施例的基于机器学习来提供预测结果的方法的流程图；以及

图6示出根据本发明另一示例性实施例的训练预测模型的方法的流程图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。

在本发明的示例性实施例中，通过以下方式来针对待预测样例执行预测：除了待预测样例自身的属性信息之外，还额外获取在待预测样例之前发生的历史样例的属性信息以及历史样例关于预测问题的结果信息(例如，通过预测手段来获得结果信息)，将上述属性信息和结果信息融合到待预测样例的预测样本中，使得机器学习模型能够有效地参考历史样例和待预测样例这两者来提供相应的预测结果。

机器学习是人工智能研究发展到一定阶段的必然产物，其致力于通过计算的手段，利用经验来改善***自身的性能。在计算机***中，“经验”通常以“数据”形式存在，通过机器学习算法，可从数据中产生“模型”，也就是说，将经验数据提供给机器学习算法，就能基于这些经验数据产生模型，在面对新的样例时，模型会提供相应的判断，即，预测结果。应注意，本发明的示例性实施例对具体的机器学习算法并不进行任何限制。此外，还应注意，在训练或应用机器学习模型的过程中，还可利用统计算法、业务规则和/或专家知识等，以进一步提高预测结果的准确性。

图1示出根据本发明示例性实施例的基于机器学习来提供预测结果的***的框图。具体说来，所述预测***提出了一种基于待预测样例及其历史样例的信息来针对待预测样例执行预测的处理体系，在所述处理体系中，历史样例关于预测问题的结果信息也被融合到待预测样例的预测样本，其中，某些历史样例的结果信息可通过预测的手段来得到。图1所示的***可全部通过计算机程序以软件方式来实现，也可由专门的硬件装置来实现，还可通过软硬件结合的方式来实现。相应地，组成图1所示的***的各个装置可以是仅依靠计算机程序来实现相应功能的虚拟模块，也可以是依靠硬件结构来实现所述功能的通用或专用器件，还可以是运行有相应计算机程序的处理器等。利用所述***，能够结合历史样例的结果信息来利用历史样例的属性信息，从而有效地参考历史样例和待预测样例两者来较为准确地提供当前待预测样例的预测结果。

如上所述，在本发明的示例性实施例中，在针对待预测的当前样例进行预测时，可结合历史样例和当前样例两者来作出判断，具体说来，可在历史样例的结果信息的指导下来考虑所述历史样例的相关属性信息，使得能够在受限的硬件环境和数据资源下，利用机器学习手段来有效地把握历史样例所体现出的规律，进而提供较为准确的预测结果。

如图1所示，属性信息获取装置100用于获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息。

根据本发明的示例性实施例，将利用机器学习技术，结合待预测样例(例如，当前样例)与一个或多个历史样例的相关信息来提供待预测样例的预测结果。这里所说的样例是指可在某个方面(即，关于预测问题)进行预估的对象和/或事务，相应地，样例可包括但不限于能够针对是否欺诈进行预估的交易(例如，***交易、储蓄卡交易、电子支付等)、能够针对用户是否执行特定行为进行预估的展示内容(例如，用户可点击的广告、用户可购买的商品等)、能够针对数值范围进行预估的对象(例如，生理指标等)或诸如此类。作为示例，当样例指示交易样例(例如，***交易、储蓄卡交易、电子支付等购买行为)时，属性信息获取装置100可获取与每次交易有关的属性信息，例如，交易发生的位置、金额、商户、商品等信息。例如，在预测问题为相关交易是否为欺诈交易的情况下，待预测样例可对应于当前交易，历史样例可对应于在当前交易之前发生的预定数量的先前交易和/或在当前交易之前的预定时间段内发生的先前交易。如上所述，历史样例是指在待预测样例之前发生的样例，作为示例，历史样例可包括紧在待预测样例之前发生的一个或多个样例，具体说来，属性信息获取装置100可从当前待预测交易的交易日向前推算，获取最近发生的预定数量的历史交易和/或在最近一段预定时间内发生的历史交易的属性信息。此外，历史样例也可以是按照其他规则选取的在待预测的当前样例之前发生的一个或多个样例。

作为示例，属性信息获取装置100可获取待预测样例的数据记录和至少一个历史样例的数据记录，这些数据记录可包括关于相应的待预测样例或历史样例的各个属性的属性信息。

例如，上述数据可以是预先存储或生成的数据、也可以是从外部接收的数据。这些数据可涉及对象的身份信息，例如，关于人员的身份、学历、职业、资产、联系方式等信息。或者，这些数据也可涉及事务的相关信息，例如，关于买卖合同的交易额、交易双方、标的物、交易地点等信息。以上属性信息的内容仅作为用于进行解释的示例，实际上，针对待预测样例和历史样例的具体样例(例如，交易、状态、网络行为等)，可获取相应内容的属性信息。也就是说，本发明的示例性实施例中提到的属性信息可涉及任何样例(例如，任何对象或事务)在某方面的表现或性质，而不限于对个人、物体、组织、单位、机构、项目、事件等进行限定或描述。实际上，任何能够通过以其作为依据来预测相关问题的属性信息数据均可应用于本发明的示例性实施例。

实际上，属性信息获取装置100可获取不同来源的结构化或非结构化属性数据，例如，文本数据或数值数据等。根据所需要预测的具体样例，属性数据可包括来源于各种部门的数据，例如，来源于经营实体的数据、来源于银行等金融机构的数据、来源于数据提供商的数据、来源于互联网(例如，社交网站)的数据、来源于移动运营商的数据、来源于APP运营商的数据、来源于快递公司的数据、来源于信用机构的数据等等。这些数据可通过输入装置输入到属性信息获取装置100，或者由属性信息获取装置100根据已有的数据来自动生成，或者可由属性信息获取装置100从网络上(例如，网络上的存储介质(例如，数据仓库))获得，此外，诸如服务器的中间数据交换装置可有助于属性信息获取装置100从外部数据源获取相应的数据。这里，获取的数据可被属性信息获取装置100中的文本分析模块等数据转换模块转换为容易处理的格式。应注意，属性信息获取装置100可被配置为由软件、硬件和/或固件组成的各个模块，这些模块中的某些模块或全部模块可被集成为一体或共同协作以完成特定功能。

结果信息获取装置200用于获取所述历史样例关于预测问题的结果信息，其中，针对所述历史样例之中不具有关于预测问题的真实结果的历史样例，结果信息获取装置200将历史样例的预测结果作为历史样例的结果信息。

这里，针对每一个历史样例，结果信息获取装置200可进一步获取该历史样例关于预测问题的结果信息。其中，结果信息用于指示历史样例针对预测问题的相应结论，该结论与待预测样例的预测结果可指示相同或相关的内容。例如，在预测问题涉及交易是否为欺诈交易的情况下，结果信息可用于指示各个历史交易是否为欺诈交易，相应地，结果信息获取装置200可采取任何适当的方式来获取各个历史交易的结果信息。作为示例，结果信息获取装置200可根据大量样例的统计结果来推断历史样例的结果信息，例如，将明显更大概率会发生的结果作为历史样例的结果信息(例如，由于正常交易相对于欺诈交易的概率明显更高，因此，可将历史样例的结果信息预先设置为对应于正常交易)；作为另一示例，结果信息获取装置200可将反映历史样例实际情况的真实结果作为相应历史样例的结果信息；作为又一示例，结果信息获取装置200可根据专家规则等其他判断准则，基于历史样例的属性信息相应地设置历史样例的结果信息。应注意，上述示例并非用于限制本发明示例性实施例的范围，本领域技术人员可采用任何适当的方式来获取历史样例的结果信息。

由于在针对待预测样例执行预测时，所基于的历史样例的真实结果可能尚不可得，因此，根据本发明的示例性实施例，对于不具有真实结果的历史样例，可将这样的历史样例的预测结果作为其结果信息。例如，在***盗刷的示例中，为了预测当前这笔刷卡是否为盗刷，属性信息获取装置100会获取当前交易以及先前交易的属性信息，然而，先前交易是否为盗刷很可能处于尚未确定的状态(例如，用户还未意识到发生了盗刷，或者用户还未来得及反馈盗刷的发生)，为此，结果信息获取装置200可将关于这部分先前交易是否为盗刷的预测结果作为相应的结果信息。作为另一示例，在预测用户针对推荐项(例如，推荐商品)的点击概率时，属性信息获取装置100会获取先前一段时间各推荐项被点击的情况，然而，这些获取的历史样例中有些样例会已经被标注过是否被点击，但由于最近的数据尚未处理完毕等原因，会存在至少一部分尚不确认点击情况的历史样例，针对这部分历史样例，同样地，结果信息获取装置200将这些历史样例的预测结果作为它们的结果信息。

可以看出，在本发明的示例性实施例中，除了获取历史样例的属性信息之外，还额外获取历史样例的结果信息，特别地，对于结果尚不确定的历史样例，将相应的预测结果作为这部分历史样例的结果信息。通过上述方式，能够在相关历史样例的结果信息的指导下有效地应用各历史样例的属性信息或其统计数据，有助于提升机器学习模型的学习/预测效果。

如上所述，除了不具有真实结果的历史样例之外，结果信息获取装置200可按照任何适当的方式来获取其他历史样例的结果信息。作为示例，针对具有真实结果的历史样例，结果信息获取装置200可将历史样例的真实结果作为历史样例的结果信息。具体说来，根据本发明的示例性实施例，为了针对待预测样例执行预测而参考的历史样例可大致划分为两种，一种是已经标注了真实结果的历史样例(例如，在较早的时间段发生的历史样例)，另一种是尚无法获取真实结果的历史样例(例如，最近发生的历史样例)，相应地，对于第一种历史样例，结果信息获取装置200可获取它们的真实结果作为结果信息，而作为第二种历史样例，结果信息获取装置200可获取它们的预测结果作为结果信息。通过这种方式，任意历史样例均能够用于针对待预测样例执行预测，这特别有益于诸如近期样例等尚未标记的样例起到重要作用的预测场景。

样本生成装置300用于基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本。这里，预测样本是机器学习模型用于针对待预测样例进行预测的基础，也就是说，对应于待预测样例，样本生成装置300将产生由多个特征组成的预测样本，所述特征可从不同角度来描述待预测样例的特性(包括待预测样例的历史样例的特性)，例如，所述特征可以是各个样例的属性信息本身，也可以是通过对这些属性信息进行特征处理或统计处理后得到的信息字段，特别地，所述特征可包括历史样例的结果信息本身，也可包括历史样例的结果信息与相关属性信息的结合项，例如，基于结果信息对属性信息进行统计而产生的结果值。

根据本发明的示例性实施例，预测样本的特征将反映出历史样例的结果信息的指导作用，应理解，结果信息参与预测样本的特征工程的具体方式不受限制，以下示例仅用于起到解释作用：

例如，样本生成装置300可根据历史样例的结果信息来筛选出至少一部分历史样例，并基于筛选出的所述至少一部分历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征。在这种情况下，可仅考虑结果符合特定条件的历史样例，从而提高模型预估的效果。例如，在交易欺诈的示例中，可根据结果信息来选取很可能为正常交易的历史交易，通过这部分历史交易与当前交易之间的对比关系，可有效地判断当前交易是否为欺诈交易。

又例如，样本生成装置300可根据历史样例的结果信息对所述历史样例的相应属性信息进行加权，并基于加权后的历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征。在这种情况下，可考虑各历史样例的结果信息来有效地获取历史样例的整体情况，并基于历史样例的整体情况连同待预测样例自身的属性信息来有效地执行预测。

又例如，样本生成装置300可分别基于待预测样例的属性信息、历史样例的属性信息、所述历史样例的结果信息来生成待预测样例的预测样本的特征。在这种情况下，历史样例的结果信息扩展了特征空间的维度，使得模型能够相应学习到更为可靠的知识，进而提高预测效果。

以上示例仅作为解释而绝非用于限制本发明的示例性实施例，实际上，样本生成装置300可针对待预测样例的属性信息、相关历史样例的属性信息以及所述历史样例的结果信息执行特征工程以产生预测样本的各个特征，这里，本领域技术人员可按照任何适合的特征工程方式来设计预测样本的特征，例如，可考虑预测问题的业务逻辑、机器学习模型的算法特点等各种因素来执行特征工程，例如，可对待预测样例或历史样例的属性信息的取值进行诸如组合、离散化、提取部分字段值、取整或统计等各种常规特征工程的处理。应注意，本发明的示例性实施例不受限于任何具体的特征工程方案。

此外，应理解，根据本发明的示例性实施例，预测样本的特征不仅可基于待预测样例的属性信息、历史样例的属性信息以及历史样例的结果信息，还可附加地基于其他相关信息。例如，结果信息获取装置200可还获取历史样例的结果信息的置信度，相应地，样本生成装置300可基于获取的待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本。

这里，结果信息的置信度也可称为可靠度、置信水平、置信系数。在对总体参数作出估计时，由于样本的随机性，其结论总是不确定的，因此，采用置信度来表示区间估计的把握程度，这里，置信区间的跨度是置信水平的正函数，即要求的把握程度越大，势必得到一个较宽的置信区间，这就相应降低了估计的准确程度。

这里，本领域技术人员可按照任何适当的方式来获得历史样例的结果信息的置信度，例如，针对不具有真实结果的历史样例，结果信息获取装置200可基于预测模型的算法或独立于预测模型的算法来获得历史样例的预测结果的置信度，作为历史样例的结果信息的置信度；此外，针对具有真实结果的历史样例，结果信息获取装置200可将历史样例的真实结果的置信度设置为表示高置信水平的预设值，作为历史样例的结果信息的置信度。

相应地，样本生成装置300可将历史样例的结果信息的置信度作为单独的预测样本特征以扩展预测样本的特征空间，或者，样本生成装置300还可将置信度按照与结果信息类似的方式应用于特征工程；或者，样本生成装置300也可按照与结果信息不同的方式来应用置信度。应注意，本发明的示例性实施例不限定为了形成预测样本的特征而将置信度应用于特征工程的具体方式。

作为示例，样本生成装置300可通过以下方式中的至少一种来生成待预测样例的预测样本的特征：

第一种方式：样本生成装置300可根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度来筛选出至少一部分历史样例，并基于筛选出的所述至少一部分历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征。在这种情况下，可仅考虑结果符合特定条件的历史样例，从而提高模型预估的效果。例如，在交易欺诈的示例中，可根据结果信息及其置信度来选取很可能为正常交易的历史交易，通过这部分历史交易与当前交易之间的对比关系，可有效地判断当前交易是否为欺诈交易。

第二种方式：根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度对所述历史样例的相应属性信息进行加权，并基于加权后的历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征。在这种情况下，可考虑各历史样例的结果信息及其置信度来有效地获取历史样例的整体情况，并基于历史样例的整体情况连同待预测样例自身的属性信息来有效地执行预测。

第三种方式：分别基于待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本的特征。在这种情况下，历史样例的结果信息和置信度扩展了特征空间的维度，使得模型能够相应学习到更为可靠的知识，进而提高预测效果。

预测结果提供装置400用于利用基于机器学习技术训练出的预测模型，针对待预测样例的预测样本来提供待预测样例的预测结果。

也就是说，预测结果提供装置400可用于获取由基于机器学习训练出的预测模型针对待预测样例所提供的预测结果。这里，针对每一个待预测样例的预测样本，预测模型可提供该待预测样例关于预测问题的预测结果。相应地，预测结果提供装置400可获取由预测模型提供的预测结果。这里，预测结果提供装置400可控制预测模型来针对待预测样例执行预测并由此获得预测模型的预测结果，或者，预测结果提供装置400可从位于外部的预测模型接收相应的预测结果。预测结果提供装置400可将获取的预测结果提供给用户，或者，预测结果提供装置400可将获取的预测结果提供给存储装置、决策装置或其他装置以进行进一步的处理。

这里，预测模型是基于训练数据集所训练出的机器学习模型，这里，训练数据集包括大量训练样本，每个训练样本的特征构成与预测样本一致且包含当前样例关于预测问题的真实结果(即，标记)。举例说来，假设预测模型所针对的预测问题为当前交易是否为欺诈交易，则可利用大量已经标记过欺诈与否的真实交易来形成预测模型的训练样本，其中，真实发生过的欺诈交易可对应于预测模型的正样本，而真实发生过的非欺诈交易可对应于预测模型的负样本，作为示例，正样本的标记可取值为1，负样本的标记可取值为0。关于训练样本的特征部分，需要按照与预测样本完全对应一致的方式来构建，具体说来，每个训练样本可对应于当前样例，相应地，可基于当前样例的属性信息、在当前样例之前发生的历史样例的属性信息、所述历史样例关于预测问题的结果信息(或进一步还基于所述历史样例的结果信息的置信度)来产生训练样本的各个特征，使得训练样本的特征与预测样本的特征在构成上完全一致(即，在历史样例的选择方式以及特征工程的具体方式等各方面均一致)。

如上所述，为了产生训练样本的特征，需要获取相应的历史样本的结果信息，作为优选方式，训练样本所涉及的结果信息的获取方式可对应于预测样本所涉及的结果信息的获取方式。也就是说，可按照与预测样本对应一致的方式，通过预测结果、真实结果、统计结果等来对应地设置历史样例的结果信息。

举例来说，假设在针对待预测样例执行预估的场景(为了在线预估用户点击率或欺诈交易等场景)中，为了生成预测模型的预测样本，不仅需要获取待预测样例及其历史样例的属性信息，还需要获取各个历史样例的结果信息。然而，由于种种原因，很可能在执行预估时还无法获取所有历史样例的真实结果信息(例如，在线预估时还来不及收集或确认所有历史样例的真实结果)，也就是说，预测样本所基于的历史样例之中，只有一部分历史样例已经标记过真实结果，还有至少一部分历史样例尚不具有真实结果。因此，标记过真实结果的历史样例可将所述真实结果作为结果信息，而其他历史样例的结果信息可来自于这些历史样例的预测结果，作为示例，可以是由预测模型提供的预测结果。

在这种情况下，优选地，可一致地设计预测模型的训练过程和预测过程，特别是，可按照一致的方式来构建训练样本和预测样本中所涉及的结果信息，以使得训练样本在场景上更为逼近预测样本。为此，尽管在构建训练样本时，当前样例及其历史样例已经具有真实的结果，但是，针对预测样本中采用了预测结果作为结果信息的历史样例，训练样本中对应的历史样例同样将采用预测结果来作为其结果信息。例如，在关于***盗刷的示例中，假设预测样本所基于的是待预测交易以及最近三个月发生的历史交易，其中，当月发生的历史交易不具有真实结果，需要采用预测结果来作为结果信息，而其余两个月的历史交易可采用真实结果作为结果信息。相应地，在形成训练样本时，对于当前交易当月发生的历史交易，也要采用预测结果来作为结果信息，而其余两个月的历史交易可采用真实结果作为结果信息。

在上述示例中，历史样例的预测结果可由预测模型来提供，这里，预测模型可采用迭代的方式来进行训练，利用不断迭代而得到的当前训练出的模型，可持续更新训练样本所涉及的历史样例的预测结果。相对应地，在应用训练完成的预测模型进行预估时，可使用预测模型来产生预测样本所涉及的历史样例的预测结果；这里，作为可选方式，也可利用上一轮迭代所产生的模型来提供预测样本所涉及的历史样例的预测结果。

也就是说，由结果信息获取装置200获取的预测样本所基于的历史样例的预测结果可以由预测模型所提供，或者，也可由与所述预测模型的上一轮迭代对应的前次模型所提供。

相应地，作为示例，在所述预测模型的训练过程中，可按照与预测样本一致的方式，将训练样本所基于的历史样例的真实结果或预测结果作为所述历史样例的结果信息，其中，所述训练样本所基于的历史样例的预测结果由当前训练出的预测模型来提供。进一步地，在所述训练过程中，所述预测模型针对训练样本进行迭代训练，使得训练样本所基于的历史样例的预测结果随着迭代而不断更新。

预测结果提供装置400可将待预测样例的预测样本提供给如上所训练出的预测模型，从而得到相应的预测结果。作为示例，图1所示的***可在线提供待预测样例关于预测问题的预测结果。相应地，属性信息获取装置100、结果信息获取装置200、样本生成装置300和预测结果提供装置400可在线处理数据。然而，应理解，本发明的示例性实施例并不受限于，整个***或其中的某些装置也可工作在离线状态下。

作为示例，上述预测模型的训练过程也可并入根据本发明示例性实施例的预测***中。

图2示出根据本发明另一示例性实施例的基于机器学习来提供预测结果的***的框图。参照图2，所述***包括属性信息获取装置100、结果信息获取装置200、样本生成装置300、预测结果提供装置400和模型训练装置500。

可以看出，与图1相比，图2还包括了模型训练装置500，除此之外，属性信息获取装置100、结果信息获取装置200和样本生成装置300也将附加地执行关于预测模型训练的操作。

由于已经参照图1详细描述了属性信息获取装置100、结果信息获取装置200、样本生成装置300和预测结果提供装置400在利用训练完的预测模型执行预估时的操作，这里将不再对上述操作进行赘述，以下仅描述与预测模型的训练阶段有关的处理。

为了完成预测模型的训练，需基于真实样例来构建大量训练样本，其中，作为示例，每个训练样本可指示一个当前样例关于预测问题的真实结果。训练样本的特征部分可基于当前样例及其历史样例的属性信息、所述历史样例的结果信息(或进一步考虑所述结果信息的置信度)，而训练样本的标记可指示当前样例的真实结果。

具体说来，属性信息获取装置100可获取与训练样本对应的当前样例的属性信息以及在当前样例之前发生的历史样例的属性信息，这里，属性信息获取装置100还获取当前样例关于预测问题的真实结果(即，标记属性)。

结果信息获取装置200可获取所述在当前样例之前发生的历史样例关于预测问题的结果信息，这里，作为优选方式，结果信息获取装置200可按照预测样本的构成方式，对应地获取上述历史样例的真实结果或预测结果来作为这些历史样例的结果信息。除此之外，作为可选方式，结果信息获取装置200还可按照结果信息的获取方式，对应地获取各个结果信息的置信度。

样本生成装置300可基于获取的当前样例的属性信息、当前样例的真实结果、当前样例的历史样例的属性信息以及所述历史样例的结果信息(或进一步基于结果信息的置信度)来生成当前样例的训练样本。应理解，样本生成装置300可按照预测样本的特征设计，经由同样的特征工程处理来生成训练样本的特征，此外，样本生成装置300可将当前样例的真实结果作为训练样本的标记。

模型训练装置500可基于由样本生成装置300所生成的训练样本，按照预定的机器学习算法来训练预测模型。这里，应注意，本发明的示例性实施例不限制预测模型的具体算法。具体说来，模型训练装置500可采用迭代的方式来训练预测模型，在这过程中，被用作历史样例的结果信息的预测结果(或连同其置信度)被不断更新，使得训练样本的特征部分被不断更新。为此，在每一轮迭代的模型训练中，结果信息获取装置200可利用当前所训练出的模型(即，对应于上一轮迭代的模型)来获取相关历史样例的预测结果，以作为所述历史样例的结果信息。针对第一轮迭代，结果信息获取装置200可按照其他方式来获取相关历史样例的预测结果，以作为所述历史样例的初始结果信息。例如，结果信息获取装置200可基于大量样例的结果统计信息来设置相关历史样例的预测结果，或者，结果信息获取装置200可按照预定人为规则推断出相关历史样例的预测结果，或者，结果信息获取装置200可随机设置相关历史样例的预测结果。针对这样的预测结果，结果信息获取装置200可将相应的置信度设置为默认值或按照预定的方式来计算相应的置信度。此外，结果信息获取装置200也可在第一轮迭代时舍弃训练样本中以预测结果作为结果信息的历史样例，而仅采用以真实结果作为结果信息的历史样例。在第一轮迭代之后，即可使用训练出的预测模型来针对需要预测结果的历史样例进行预测。如上所述，模型训练装置500可不断地迭代预测模型，直到满足相应的收敛条件，如此训练出的预测模型能够学习到各种结果的历史样例下如何针对当前样例进行预测。关于预测模型的训练细节可参照之前关于预测模型本身进行的说明，在此不再赘述。

相应地，模型训练装置500可将训练完成的预测模型提供给预测结果提供装置400，使得预测结果提供装置400可利用所述预测模型来针对预测样本提供待预测样例的预测结果。

作为示例，在图1或图2所示的***中，还可包括反馈装置(未示出)，用于接收待预测样例关于预测问题的真实结果，其中，所述真实结果连同相应的待预测样例被用于训练所述预测模型。具体说来，在诸如图1所示的***中，反馈装置可将其所接收的待预测样例关于预测问题的真实结果进行存储，并将存储的所述真实结果提供给预测模型的外部训练装置，以重新训练和/或更新预测模型。或者，在诸如图2所示的***中，反馈装置可将其所接收的待预测样例关于预测问题的真实结果提供给属性信息获取装置100，以作为与待预测样例对应的训练样本的真实标记。

以下将参照图3来描述根据本发明示例性实施例的基于机器学习来提供预测结果的方法的流程图。这里，作为示例，所述方法可在线提供待预测样例关于预测问题的预测结果，相应地，至少一部分步骤需在线执行。

图3所示的方法可由图1所示的预测***来执行，也可完全通过计算机程序以软件方式实现或通过存储有所述计算机程序的计算机可读介质来实现。此外，还可通过特定配置的计算装置来执行图3所示的方法。由于以上已经参照图1描述了相关方法步骤的处理细节，对于这部分的内容以下将不再参照图3来赘述，应理解，根据本发明示例性实施例的预测方法同样可涵盖参照图1所描述的所有处理细节。

参照图3，在步骤S100，获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息。为了便于理解，以下将结合***盗刷的具体示例来进行描述，然而，应理解，本发明的示例性实施例并不受限于任何具体的预测问题或相关样例。具体说来，假设待预测样例指示当前这一笔刷卡交易，预测问题指示关于当前这一笔刷卡交易是否为诸如盗刷的欺诈交易，而历史样例是指在当前这一笔刷卡交易之前发生的刷卡交易。

作为示例，可在线获取***当次刷卡所产生的当前交易的属性信息，例如，刷卡金额、刷卡地点、刷卡商品、刷卡商户标识等；此外，还可获取所述***过去刷卡所产生的历史交易的属性信息，例如，可获取最近三个月的交易的属性信息或最近N(N为大于1的整数)笔交易的属性信息。

接下来，在步骤S200中，获取历史样例关于预测问题的结果信息，其中，针对所述历史样例之中不具有关于预测问题的真实结果的历史样例，将历史样例的预测结果作为历史样例的结果信息。

举例说来，在该步骤中，需获取关于各个历史交易是否为欺诈交易的结果信息，其中，对于在执行预测时尚无法确认是否为欺诈交易的历史交易(即，不具有真实欺诈结果的历史交易)，将所述历史交易的预测结果作为它的结果信息。这里，在所有相关的历史交易均不具有真实欺诈结果的情况下，可统一采用预测结果来作为历史交易的结果信息。作为示例，这里的预测结果可由用于预测当前交易是否为欺诈交易的预测模型本身来提供，作为可选方式，在该预测模型被迭代训练的情况下，也可由预测模型的上一轮迭代所对应的前次模型来提供历史交易的预测结果。

然而，在其他情况下，在所有相关的历史交易中，也可能存在一些具有真实结果的历史交易，对于这部分历史交易，可采用除了预测结果以外的其他信息来作为结果信息，例如，可将真实的欺诈结论作为相应的结果信息。应注意，这部分历史交易的结果信息除了可以是历史交易的真实结果之外，还可以是基于大量样本而得到的统计概率，同样也可以是利用模型预估出来的欺诈可能性。

接下来，在步骤S300中，基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本。

举例说来，可对应于每个当前交易来产生相应的预测样本，其特征不仅涉及当前交易的属性信息，也涉及相关历史交易的属性信息，特别是，在产生预测样本的特征时，还进一步结合了各个历史交易的欺诈结果信息。

这里，可采用任何适当的特征工程的处理方式来产生预测样本的特征，作为示例，所述特征可包括以下项之中的至少一项：

(1)当前交易的至少一个属性特征，例如，交易金额、交易地点、交易商品、交易商户标识等；

(2)历史交易的至少一个属性特征，例如，交易金额、交易地点、交易商品、交易商户标识等；这里，也可以是历史交易的属性统计特征，例如，交易金额的平均值/最大值/最小值等；

(3)历史交易的结果信息，例如，取值为[0,1]之间的欺诈结果，其中，真实欺诈结论可对应于1，真实非欺诈结论可对应于0，模型预测结果或样本统计结果可以是0与1之间的概率值；这里，所述特征也可以是历史交易的结果信息统计特征；

(4)基于结果信息筛选出的属性特征，例如，欺诈结果值小于预定阈值的历史交易的交易金额；

(5)基于结果信息的属性统计特征，例如，交易金额以欺诈结果信息的取值为权重的加权值。

应注意，以上项目仅作为示例而非限制，例如，上述特征产生方式还可结合使用，比如，可进一步获取筛选后的加权特征，例如，对欺诈结果值小于预定阈值的历史交易进行以相应欺诈结果信息的取值为权重的加权处理来得到相应的特征。

继续参照图3，在步骤S400中，可利用基于机器学习技术训练出的预测模型，针对待预测样例的预测样本来提供待预测样例的预测结果。

如上所述，作为示例，这里的预测模型用于预测当前交易是否为欺诈交易。将预测样本提供给所述预测模型，可获得指示当前交易为欺诈交易的概率的预测结果。

以下将参照图4来描述根据本发明示例性实施例的训练预测模型的方法的流程图，这里，图4所示的方法可由图2所示的***中的一部分装置来执行，也可由单独的模型训练装置来执行，或者，所述方法也可完全通过计算机程序以软件方式实现或通过存储有所述计算机程序的计算机可读介质来实现。此外，还可通过特定配置的计算装置来执行图4所示的方法。类似地，由于以上已经参照图2描述了相关方法步骤的处理细节，对于这部分的内容以下将不再参照图4来赘述，应理解，根据本发明示例性实施例的模型训练方法同样可涵盖参照图2所描述的所有处理细节。

参照图4，在步骤S1000中，获取当前样例的属性信息以及在当前样例之前发生的历史样例的属性信息。这里，当前样例是指当前训练样本所对应的样例。

同样，以预测***盗刷的预测模型的训练过程为例，在该步骤中，可获取某个刷卡交易的属性信息以及在该交易之前发生的历史刷卡交易的属性信息，例如，交易金额、交易地点、交易商品、交易商户标识等。

在步骤S1100中，获取所述当前样例关于预测问题的真实标记。

作为示例，在该步骤中，可获取当前交易实际上是否为欺诈交易的标记结果，其中，欺诈交易的标记结果可对应于值1，非欺诈交易的标记结果可对应于值0。

在步骤S2000中，获取所述历史样例关于预测问题的结果信息，这里，作为示例，可按照与预测样本一致的方式，将训练样本所基于的历史样例的真实结果或预测结果作为所述历史样例的结果信息，其中，所述训练样本所基于的历史样例的预测结果可由当前训练出的预测模型来提供。

作为示例，在该步骤中，对于训练样本中与预测样本中具有真实欺诈结果的历史交易在时序上对应的历史交易，可采用其真实的标记作为它的结果信息；而对于训练样本中与预测样本中不具有真实欺诈结果的历史交易在时序上对应的历史交易，可采用其预测结果而非其真实欺诈结果作为它的结果信息，这里的预测结果由当前训练出的预测模型来提供。

在步骤S3000中，基于在步骤S1000获取的当前样例和历史样例的属性信息、在步骤S1100获取的当前样例的标记、在步骤S2000获取的历史样例的结果信息来生成当前样例的训练样本。

这里，应注意，训练样本的特征与预测样本的特征是一致的，只是在训练样本中还额外包括当前样例的标记信息。

接下来，在步骤S4000中，可利用特定的机器学习算法，基于训练样本来训练预测模型，这里，根据本发明的示例性实施例，可迭代地训练预测模型，相应地，步骤S4000可对应于一轮迭代。

在一轮训练完成之后，可在步骤S5000中判断当前训练出的预测模型是否满足预定的收敛条件，如果满足所述收敛条件，则进行到步骤S6000以输出预测模型。

如果未满足所述收敛条件，则返回步骤S2000，利用当前训练出的预测模型来重新获得历史样例的结果信息，相应地，在步骤S3000中更新各个训练样本，然后在步骤S4000执行下一轮的模型训练。

根据本发明的示例性实施例，在预测模型的预测样本/训练样本中，除了结合历史样例的结果信息之外，还可进一步结合结果信息的置信度，以进一步保证模型的效果。

以下将参照图5来描述根据本发明另一示例性实施例的基于机器学习来提供预测结果的方法的流程图。可以看出，图5所示的方法与图3所示的方法类似，两者应用的场景和执行的主体均可相同或类似，图5中的步骤S100可与图3中的步骤S100相同，图5中的步骤S400可与图3中的步骤S400类似，这里将不再对重复或相似的内容进行赘述。

以下仅重点描述图5的方法与图3的方法存在区别的技术内容。具体说来，在步骤S210中，除了获取历史样例关于预测问题的结果信息之外，还获取历史样例的结果信息的置信度。这里，作为示例，针对不具有真实结果的历史样例，可基于预测模型的算法或独立于预测模型的算法来获得历史样例的预测结果的置信度，作为历史样例的结果信息的置信度；针对具有真实结果的历史样例，将历史样例的真实结果的置信度设置为表示高置信水平的预设值，作为历史样例的结果信息的置信度。

相应地，在步骤S310中，基于获取的待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本。作为示例，可按照与结果信息类似的方式，将结果信息的置信度也一并应用于预测样本的特征工程。

这里，再次以预测当前交易是否为欺诈交易为例，在步骤S310中，可采用任何适当的特征工程的处理方式来产生预测样本的特征，作为示例，所述特征可包括以下项之中的至少一项：

(3)历史交易的结果信息及置信度，例如，所述结果信息可以是取值为[0,1]之间的欺诈结果，其中，真实欺诈结论可对应于1，真实非欺诈结论可对应于0，模型预测结果或样本统计结果可以是0与1之间的概率值；此外，置信度可以是衡量上述欺诈结果可靠性的置信水平值，真实欺诈结论或真实非欺诈结论作为真实结果，可具有最高的置信水平值，预测结果或统计结果的置信度可根据相应的方法计算而得；这里，也可采用历史交易的结果信息和/或置信度的统计特征；

(4)基于结果信息和/或置信度信息而筛选出的属性特征，例如，欺诈结果值小于预定阈值的历史交易的交易金额、置信度高于预定阈值的历史交易的交易金额、或欺诈结果值小于预定阈值且置信度高于预定阈值的历史交易的交易金额；

(5)基于结果信息和/或置信度信息的属性统计特征，例如，交易金额以欺诈结果信息的取值为权重的加权值、交易金额以置信度信息的取值为权重的加权值、交易金额以欺诈结果信息的取值与置信度信息的取值的结合为权重的加权值。

应注意，以上项目仅作为示例而非限制，例如，上述特征产生方式还可结合使用。

相应地，图6示出根据本发明另一示例性实施例的训练预测模型的方法的流程图。可以看出，图6所示的方法与图4所示的方法类似，两者应用的场景和执行的主体均可相同或类似，图6中的步骤S1000、S1100、S4000、S5000和S6000可与图4中的相应步骤相同或相似，这里将不再对重复或相似的内容进行赘述。

以下仅重点描述图6的方法与图4的方法存在区别的技术内容。具体说来，在步骤S2100中，除了获取历史样例关于预测问题的结果信息之外，还获取历史样例的结果信息的置信度。相应地，在步骤S3100中，基于获取的当前样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成当前样例的训练样本。应注意，置信度的计算方式与参照图5描述的内容一致，而训练样本的特征工程也可与参照图5描述的内容一致，这里将不再进行赘述。

以上参照图1到图6描述了根据本发明示例性实施例的基于机器学习来提供待预测样例关于预测问题的预测结果的方法和***以及相应的模型训练方法和***。应理解，上述方法可通过记录在计算可读介质上的程序来实现，相应地，根据本发明的示例性实施例，可提供一种基于机器学习来提供待预测样例关于预测问题的预测结果的计算机可读介质，在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序：(A)获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息；(B)获取所述历史样例关于预测问题的结果信息，其中，针对所述历史样例之中不具有关于预测问题的真实结果的历史样例，将历史样例的预测结果作为历史样例的结果信息；(C)基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本；(D)利用基于机器学习技术训练出的预测模型，针对待预测样例的预测样本来提供待预测样例的预测结果。

上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经参照图1到图6进行了描述，这里为了避免重复将不再进行赘述。

相应地，上述基于机器学习来提供待预测样例关于预测问题的预测结果的***也可完全依赖计算机程序的运行来实现相应的功能，即，各个装置与计算机程序的功能架构中的各步骤相应，使得整个***通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，图1和图2所示的各个装置以及未示出的相关装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

这里，本发明的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行上述基于机器学习来提供待预测样例关于预测问题的预测结果的方法。

具体说来，所述计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，所述计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制***或***管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

上述关于基于机器学习来提供待预测样例关于预测问题的预测结果的方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，所述计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

上述关于基于机器学习来提供待预测样例关于预测问题的预测结果的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

具体说来，如上所述，根据本发明示例性实施例的基于机器学习来提供待预测样例关于预测问题的预测结果的计算装置可包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：(A)获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息；(B)获取所述历史样例关于预测问题的结果信息，其中，针对所述历史样例之中不具有关于预测问题的真实结果的历史样例，将历史样例的预测结果作为历史样例的结果信息；(C)基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本；(D)利用基于机器学习技术训练出的预测模型，针对待预测样例的预测样本来提供待预测样例的预测结果。

应注意，以上已经结合图1到图6描述了根据本发明示例性实施例的基于机器学习来提供待预测样例关于预测问题的预测结果的方法的各处理细节，这里将不再赘述计算装置执行各步骤时的处理细节。

以上已经描述了本发明的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，并且本发明也不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的样例下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本发明的保护范围应该以权利要求的范围为准。

Claims

1.一种基于机器学习来提供待预测样例关于预测问题的预测结果的方法，包括：

(A)获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息；

(B)获取所述历史样例关于预测问题的结果信息，其中，针对所述历史样例之中不具有关于预测问题的真实结果的历史样例，将历史样例的预测结果作为历史样例的结果信息；

(C)基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本；以及

(D)利用基于机器学习技术训练出的预测模型，针对待预测样例的预测样本来提供待预测样例的预测结果。

2.如权利要求1所述的方法，其中，在步骤(B)中，还获取历史样例的结果信息的置信度，并且，

在步骤(C)中，基于获取的待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本。

3.如权利要求2所述的方法，其中，在步骤(B)中，所述历史样例的预测结果由所述预测模型或与所述预测模型的上一轮迭代对应的前次模型所提供。

4.如权利要求3所述的方法，其中，在步骤(B)中，针对具有真实结果的历史样例，将历史样例的真实结果作为历史样例的结果信息。

5.如权利要求4所述的方法，其中，所述预测模型具有以下训练过程，在所述训练过程中，按照与预测样本一致的方式，将训练样本所基于的历史样例的真实结果或预测结果作为所述历史样例的结果信息，其中，所述训练样本所基于的历史样例的预测结果由当前训练出的预测模型来提供。

6.如权利要求5所述的方法，其中，在所述训练过程中，所述预测模型针对训练样本进行迭代训练，使得训练样本所基于的历史样例的预测结果随着迭代而不断更新。

7.如权利要求2所述的方法，其中，通过以下方式中的至少一种来生成待预测样例的预测样本的特征：

(C1)根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度来筛选出至少一部分历史样例，并基于筛选出的所述至少一部分历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征；

(C2)根据所述历史样例的结果信息以及所述历史样例的结果信息的置信度对所述历史样例的相应属性信息进行加权，并基于加权后的历史样例的属性信息以及待预测样例的属性信息来生成待预测样例的预测样本的特征；以及

(C3)分别基于待预测样例的属性信息、所述历史样例的属性信息、所述历史样例的结果信息以及所述历史样例的结果信息的置信度来生成待预测样例的预测样本的特征。

8.一种基于机器学习来提供待预测样例关于预测问题的预测结果的***，包括：

属性信息获取装置，用于获取待预测样例的属性信息以及在待预测样例之前发生的历史样例的属性信息；

结果信息获取装置，用于获取所述历史样例关于预测问题的结果信息，其中，针对所述历史样例之中不具有关于预测问题的真实结果的历史样例，结果信息获取装置将历史样例的预测结果作为历史样例的结果信息；

样本生成装置，用于基于获取的待预测样例的属性信息、所述历史样例的属性信息以及所述历史样例的结果信息来生成待预测样例的预测样本；以及

预测结果提供装置，用于利用基于机器学习技术训练出的预测模型，针对待预测样例的预测样本来提供待预测样例的预测结果。

9.一种基于机器学习来提供待预测样例关于预测问题的预测结果的计算机可读介质，其中，在所述计算机可读介质上记录有用于执行以下步骤的计算机程序：

10.一种基于机器学习来提供待预测样例关于预测问题的预测结果的计算装置，包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：