CN115034520B

CN115034520B - 风险预测方法、装置、设备及存储介质

Info

Publication number: CN115034520B
Application number: CN202210947365.XA
Authority: CN
Inventors: 武湖; 吴志平; 万仁俊
Original assignee: Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Current assignee: Taiping Financial Technology Services Shanghai Co Ltd Shenzhen Branch
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2023-01-10
Anticipated expiration: 2042-08-09
Also published as: CN115034520A

Abstract

本申请涉及一种风险预测方法、装置、设备及存储介质，所述方法包括：从业务数据中获取多个实体及多个实体之间的关联关系；业务数据用于表征在不同业务类型下所产生的数据；根据多个实体及多个实体之间的关联关系，构建实体关系图谱；根据实体关系图谱计算实体的目标风险量化值，基于实体的目标风险量化值对实体进行风险预测，生成风险预测结果。本申请提供的技术方案可以提高风险识别的准确度。

Description

风险预测方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种风险预测方法、装置、设备及存储介质。

背景技术

目前，在金融或非金融领域中均会存在大量的欺诈案件，例如，在金融领域中，经常出现重复理赔、理赔员与客户联合欺诈骗保等情况，从而给保险公司带来巨大的损失。因而，如何识别欺诈案件成为保险行业的难题。由于欺诈案件的不断出现，保险公司通常会建立专业的反欺诈作业部门，由反欺诈作业人员对不同的案件进行风险识别。

具体地，在对不同的案件进行风险识别时，反欺诈作业人员需要根据自身经验确定某一案件是否具有欺诈嫌疑，再对可疑欺诈案件进行调查，最终得到确实存在欺诈的案件。然而，现有的风险识别方法存在准确度低的问题。

发明内容

基于此，本申请实施例提供了一种风险预测方法、装置、设备及存储介质，可以提高风险识别的准确度。

第一方面，提供了一种风险预测方法，该方法包括：

从业务数据中获取多个实体及多个实体之间的关联关系；业务数据用于表征在不同业务类型下所产生的数据；根据多个实体及多个实体之间的关联关系，构建实体关系图谱；根据实体关系图谱计算实体的目标风险量化值，基于实体的目标风险量化值对实体进行风险预测，生成风险预测结果。

在其中一个实施例中，所述根据所述实体关系图谱计算所述实体的目标风险量化值，包括：

基于业务数据获取各实体的风险标签；其中，风险标签用于表征实体的风险类型；根据各实体的风险标签以及实体关系图谱计算各实体的目标风险量化值。

在其中一个实施例中，根据各实体的风险标签以及实体关系图谱计算各实体的目标风险量化值，包括：

根据各实体的风险标签，获取各实体的初始风险量化值；根据各实体的初始风险量化值、风险标签以及实体关系图谱，对各实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各实体的目标风险量化值。

在其中一个实施例中，根据各实体的初始风险量化值、风险标签以及实体关系图谱，对各实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各实体的目标风险量化值，包括：

若实体的风险标签为欺诈类标签，则将实体的初始风险量化值作为实体的目标风险量化值。

在其中一个实施例中，实体关系图谱包括各实体及各实体之间的连接边，连接边用于表征各实体之间的关联关系；根据各实体的初始风险量化值、风险标签以及实体关系图谱，对各实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各实体的目标风险量化值，还包括：

若实体的风险标签为非欺诈类标签，则获取在实体关系图谱中与实体存在关联关系的目标实体，及目标实体在实体关系图谱中的连接边的数量；根据目标实体的初始风险量化值及目标实体在实体关系图谱中的边数量，对各实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各实体的目标风险量化值。

在其中一个实施例中，根据实体关系图谱计算实体的目标风险量化值，包括：

基于业务数据获取各实体的风险属性特征；从实体关系图谱中获取各实体的关联风险特征；关联风险特征用于表征实体与其他实体之间的风险相关性；根据各实体的风险属性特征、各实体的关联风险特征，计算各实体的目标风险量化值。

在其中一个实施例中，从实体关系图谱中获取各实体的关联风险特征，包括：

基于随机游走算法，从实体关系图谱中获取各实体对应的游走序列；游走序列用于表征各实体在随机游走的过程中依次经过的实体；将各实体对应的游走序列输入至预设的Skip-Gram模型中，计算得到各实体的关联风险特征。

在其中一个实施例中，根据各实体的风险属性特征、各实体的关联风险特征，计算各实体的目标风险量化值，包括：

针对各实体，将实体的风险属性特征和关联风险特征进行拼接处理，得到实体的特征向量；将特征向量输入至预设的风险预测模型中，计算各实体的目标风险量化值。

在其中一个实施例中，预设的风险预测模型的生成过程，包括：

基于历史业务数据获取实体的历史特征向量，并获取为历史特征向量预先配置的初始风险标签；将实体的历史特征向量输入至初始风险预测模型中进行学习，生成预测风险标签；根据预测风险标签与初始风险标签，对初始风险预测模型进行更新，生成预设的风险预测模型。

在其中一个实施例中，实体对应至少一个实体类型；基于实体的目标风险量化值对实体进行风险预测，生成风险预测结果，包括：

针对各实体类型，对实体类型下各实体的目标风险量化值按照大小关系进行排序生成排序结果；从排序结果中选取与参考实体相邻的预设数量的实体作为目标实体，参考实体为最大的目标风险量化值对应的实体；或

从排序结果中选取大于预设风险量化阈值的实体作为目标实体，并根据目标实体生成风险预测结果。

第二方面，提供了一种风险预测装置，该装置包括：

获取模块，用于从业务数据中获取多个实体及多个实体之间的关联关系；业务数据用于表征在不同业务类型下所产生的数据；

构建模块，用于根据多个实体及多个实体之间的关联关系，构建实体关系图谱；

生成模块，用于根据实体关系图谱计算实体的目标风险量化值，基于实体的目标风险量化值对实体进行风险预测，生成风险预测结果。

第三方面，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一实施例中的方法步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一实施例中的方法步骤。

上述风险预测方法、装置、设备及存储介质，通过从业务数据中获取多个实体及多个实体之间的关联关系；根据多个实体及多个实体之间的关联关系，构建实体关系图谱；根据实体关系图谱计算实体的目标风险量化值，基于实体的目标风险量化值对实体进行风险预测，生成风险预测结果。在本申请实施例提供的技术方案中，由于可以基于业务数构建实体关系图谱，根据实体关系图谱自动计算各个实体的风险量化值，再通过风险量化值确定出欺诈实体，与传统技术相比，不需要强依赖人工，能够提高对各实体进行风险识别的准确度。

附图说明

图1为本申请实施例提供的一种计算机设备的框图；

图2为本申请实施例提供的一种风险预测方法的流程图；

图3为本申请实施例提供的一种计算目标风险量化值的流程图；

图4为本申请实施例提供的一种更新风险量化值的流程图；

图5为本申请实施例提供的另一种计算目标风险量化值的流程图；

图6为本申请实施例提供的一种计算关联风险特征的流程图；

图7为本申请实施例提供的一种实体关系图谱的示意图；

图8为本申请实施例提供的一种根据风险预测模型计算关联风险特征的流程图；

图9为本申请实施例提供的一种生成预设的风险预测模型的流程图；

图10为本申请实施例提供的一种生成风险预测结果的流程图；

图11为本申请实施例提供的一种风险预测装置的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请提供的风险预测方法可以应用于计算机设备中，计算机设备可以是服务器，也可以是终端，其中，服务器可以为一台服务器也可以为由多台服务器组成的服务器集群，本申请实施例对此不作具体限定，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

以计算机设备是服务器为例，图1示出了一种服务器的框图，如图1所示，服务器可以包括通过***总线连接的处理器和存储器。其中，该服务器的处理器用于提供计算和控制能力。该服务器的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序以及数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种风险预测方法。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，可选地服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

需要说明的是，本申请实施例的执行主体可以是计算机设备，也可以是风险预测装置，下述方法实施例中就以计算机设备为执行主体进行说明。

在一个实施例中，如图2所示，其示出了本申请实施例提供的一种风险预测方法的流程图，该方法可以包括以下步骤：

步骤220、从业务数据中获取多个实体及多个实体之间的关联关系；业务数据用于表征在不同业务类型下所产生的数据。

其中，业务数据是在某个业务场景中的不同业务类型下所产生的所有数据，业务数据涉及的领域可以是金融领域，也可以是非金融领域。在金融领域中，业务数据可以来源于保险、银行、证券等行业；在非金融领域中，业务数据可以来源于电商、通信等行业。以业务数据来源于保险行业为例，在用户投保场景中，业务数据可以是投保过程中的承保、收付、理赔、单证、核保、核赔等不同业务类型下所产生的所有数据。

业务数据的数据量较大，可以采用离线批处理的方式，对业务数据进行清洗等数据预处理操作后，从业务数据中提取出多个实体及多个实体之间的关联关系。实体表示的是业务数据中涉及的各个主体，关联关系是业务数据中涉及的各个主体之间存在的交互关系。以业务数据来源于保险行业为例，实体可以是不同类型的实体，例如，案件、保单、电话、车辆、个人、企业、账号等不同类型的实体，各实体之间的关联关系可参考表1，这里仅对各实体之间的部分关联关系展示说明。

表1

步骤240、根据多个实体及多个实体之间的关联关系，构建实体关系图谱。

其中，将各个实体看做实体关系图谱中的点，将各个实体之间的关联关系看做实体关系图谱中的连接边，从而基于多个实体及多个实体之间的关联关系，可以构建实体关系图谱。构建的实体关系图谱还可以按照一定的周期进行更新，例如，可以按照天、周等周期更新实体关系图谱。

步骤260、根据实体关系图谱计算实体的目标风险量化值，基于实体的目标风险量化值对实体进行风险预测，生成风险预测结果。

其中，在构建出实体关系图谱后，可以根据实体关系图谱计算实体的目标风险量化值。可以直接根据预设的计算公式计算出各个实体的目标风险量化值，也可以基于预设的风险预测模型计算出各个实体的目标风险量化值。各个实体的目标风险量化值可以是风险评分，也可以用其他方式表示，本实施例对此不作具体限定。从而在计算出各个实体的目标风险量化值之后，可以根据各个实体的目标风险量化值选取出符合要求的实体确定风险清单，从而生成风险预测结果。风险预测结果可以风险清单的形式展示，还可以为其他形式，本实施例对此不作具体限定。

本实施例中，通过从业务数据中获取多个实体及多个实体之间的关联关系；根据多个实体及多个实体之间的关联关系，构建实体关系图谱；根据实体关系图谱计算实体的目标风险量化值，基于实体的目标风险量化值对实体进行风险预测，生成风险预测结果。由于可以基于业务数构建实体关系图谱，根据实体关系图谱自动计算各个实体的风险量化值，再通过风险量化值确定出欺诈实体，与传统技术相比，不需要强依赖人工，能够提高对各实体进行风险识别的准确度。

在一个实施例中，如图3所示，其示出了本申请实施例提供的一种风险预测方法的流程图，具体涉及的是计算目标风险量化值的一种可能的过程，该方法可以包括以下步骤：

步骤320、基于业务数据获取各实体的风险标签；其中，风险标签用于表征实体的风险类型。

步骤340、根据各实体的风险标签以及实体关系图谱计算各实体的目标风险量化值。

其中，各个实体的风险标签表征了实体的风险类型，实体的风险类型可以包括欺诈类型、非欺诈类型、可疑类型、病毒类型等。业务数据中标记了各个实体的风险标签，通过对业务数据进行分析获取到各实体的风险标签后，基于各个实体的风险标签以及实体关系图谱计算各实体的目标风险量化值。可以针对实体的不同风险标签设定不同的计算方式，从而计算得到各实体的目标风险量化值。

本实施例中，基于业务数据获取各实体的风险标签；根据各实体的风险标签以及实体关系图谱计算各实体的目标风险量化值。由于针对不同风险标签的实体分别计算对应的目标风险量化值，提高了计算结果的准确性与可靠性。

在一个实施例中，如图4所示，其示出了本申请实施例提供的一种风险预测方法的流程图，具体涉及的是更新风险量化值的一种可能的过程，该方法可以包括以下步骤：

步骤420、根据各实体的风险标签，获取各实体的初始风险量化值。

步骤440、根据各实体的初始风险量化值、风险标签以及实体关系图谱，对各实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各实体的目标风险量化值。

其中，可以根据公式（1）计算各实体的初始风险量化值

。再根据各实体的初始风险量化值、欺诈类标签、非欺诈类标签以及实体关系图谱，对各实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各实体的目标风险量化值。

（1）

其中，i表示第i个实体；F表示欺诈类标签的存量实体集合；

表示欺诈类标签的存量实体数量。

可选地，根据各实体的初始风险量化值、风险标签以及实体关系图谱，对各实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各实体的目标风险量化值，可以包括：若实体的风险标签为欺诈类标签，则将实体的初始风险量化值作为实体的目标风险量化值。若实体的风险标签为非欺诈类标签，则获取在实体关系图谱中与实体存在关联关系的目标实体，及目标实体在实体关系图谱中的连接边的数量；根据目标实体的初始风险量化值及目标实体在实体关系图谱中的边数量，对各实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各实体的目标风险量化值。

其中，实体关系图谱包括各实体及各实体之间的连接边，连接边用于表征各实体之间的关联关系。在对各实体的风险量化值进行更新时，可以根据公式（2）计算每次更新后的风险量化值。

（2）

其中，k为迭代更新次数；

为实体i的风险分，F为存量欺诈实体，

为与实体i存在关联关系的实体集合，

为实体j连接边的数量。

若实体的风险标签为欺诈类标签，实体的风险量化值在迭代更新的过程中始终保持不变；若实体的风险标签为非欺诈类标签，由于与该实体存在关联关系的实体的风险量化值也在不断地迭代更新，从而在计算非欺诈类标签的实体的目标风险量化值时，也要多次迭代更新，直至达到预设的迭代更新条件为止，得到各实体的目标风险量化值。预设的迭代更新条件可以是预设的最大迭代更新次数；也可以是相邻两次更新后的风险量化值之差低于预设的阈值；当然也可以是其他迭代更新条件，本实施例对此不作具体限定。预设的迭代更新条件可以根据根据实际需求设定。

本实施例中，根据各实体的风险标签，获取各实体的初始风险量化值；根据各实体的初始风险量化值、风险标签以及实体关系图谱，对各实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各实体的目标风险量化值。由于欺诈实体周围再次出现欺诈实体的概率较正常实体更高，从而通过对各个实体的风险量化值不断地进行更新，从而计算得到的风险量化值更加准确。

在一个实施例中，如图5所示，其示出了本申请实施例提供的一种风险预测方法的流程图，具体涉及的是计算目标风险量化值的另一种可能的过程，该方法可以包括以下步骤：

步骤520、基于业务数据获取各实体的风险属性特征。

步骤540、从实体关系图谱中获取各实体的关联风险特征；关联风险特征用于表征实体与其他实体之间的风险相关性。

步骤560、根据各实体的风险属性特征、各实体的关联风险特征，计算各实体的目标风险量化值。

其中，业务数据中包括了各个实体的基础信息，以案件实体为例，业务数据中包括了案件实体的保单信息、报案信息、查勘信息等，基于保单信息、报案信息、查勘信息等维度可以预先建立案件实体的风险属性特征宽表，还可以将该特征宽表存储到HDFS或其他类型的文件***中。从而可以基于该特征宽表得到各实体的风险属性特征，具体以特征向量的形式表达。再从实体关系图谱中获取各实体的关联风险特征，在实体关系图谱中越相近的实体之间关联风险特征的相似度越高，这里的越相近的实体可以是相邻的实体或结构相似的实体，相似度可以是余弦相似度，也可以是其他类型的相似度表示。再对各实体的风险属性特征及各实体的关联风险特征进行一定的处理计算后，得到各实体的目标风险量化值。

本实施例中，基于业务数据获取各实体的风险属性特征；从实体关系图谱中获取各实体的关联风险特征；根据各实体的风险属性特征、各实体的关联风险特征，计算各实体的目标风险量化值。通过在各实体的关联风险特征的基础上，融入各实体的风险属性特征，也即各实体的个体特征，从而计算得到的各实体的目标风险量化值更加准确。

在一个实施例中，如图6所示，其示出了本申请实施例提供的一种风险预测方法的流程图，具体涉及的是计算关联风险特征的另一种可能的过程，该方法可以包括以下步骤：

步骤620、基于随机游走算法，从实体关系图谱中获取各实体对应的游走序列；游走序列用于表征各实体在随机游走的过程中依次经过的实体。

步骤640、将各实体对应的游走序列输入至预设的Skip-Gram模型中，计算得到各实体的关联风险特征。

其中，从某个实体出发，在实体关系图谱中进行预设步长K的随机游走，并记录每步所到达的实体，从而生成一个长度为K的游走序列，该游走序列记录了该实体在游走过程中的依次经过的实体。需要说明的是，从一个实体出发，需要基于该实体与其他实体的关联关系，才能到达下一个实体；以及当某实体存在多个连接边时，可以等概率的从多个连接边中随机选择一条连接边进行游走；也可以不等概率的从多个连接边中随机选择一条连接边进行游走，本实施例对此不作具体限定。

对于同一个实体，可以重复上述随机游走的过程，直至达到预设随机游走次数。遍历实体关系图谱中的各实体，执行上述过程，并且不同实体间的随机游走过程可以并行进行，从而得到了各个实体对应的至少一个长度为K的游走序列。以图7所示的实体关系图谱为例进行说明，若以实体3出发，预设步长K为4，那么可以得到（3，4，2，1）、（3，6，8，9）、（3，6，9，7）等多个游走序列，在此不一一举例说明。当然，这里的预设步长K可以为固定值；也可以设置为随机值，这样得到的游走序列不是等长序列。在设置随机值时，可以根据实际需求设定一个随机值的有限候选集，然后在该有限候选集中随机生成一个值作为随机值。

Skip-Gram模型是预先训练好的神经网络模型，通过输入所有实体对应的所有游走序列，从而输出各实体的关联风险特征，生成的关联风险特征可以预先存储起来，Skip-Gram模型的具体计算过程为现有技术，在此不做赘述。从而可以根据各实体的标识信息，获取与标识信息对应的关联风险特征，从而得到各个实体的关联风险特征。例如，可以根据各实体的ID，获取与实体ID对应的关联风险特征，从而得到各个实体的关联风险特征。

本实施例中，基于随机游走算法，从实体关系图谱中获取各实体对应的游走序列；将所有实体对应的所有游走序列输入至预设的Skip-Gram模型中，计算得到各实体的关联风险特征。由于预先生成了各个实体的关联风险特性，从而可以根据实体的标识信息快速获取到实体的关联风险特征，进而提高了风险识别的效率。

在一个实施例中，如图8所示，其示出了本申请实施例提供的一种风险预测方法的流程图，具体涉及的是根据风险预测模型计算关联风险特征的一种可能的过程，该方法可以包括以下步骤：

步骤820、针对各实体，将实体的风险属性特征和关联风险特征进行拼接处理，得到实体的特征向量。

步骤840、将特征向量输入至预设的风险预测模型中，计算各实体的目标风险量化值。

其中，实体的关联风险特征可以用向量

表示，实体的风险属性特征可以用向量

表示，将实体的风险属性特征和关联风险特征进行拼接处理，得到实体的特征向量可以表示为

。再将拼接到的特征向量输入至预设的风险预测模型中，计算各实体的目标风险量化值。预设的风险预测模型为二分类机器学习模型，该二分类机器学习模型可以是逻辑回归、随机森林等分类器模型，也可以是其他二分类机器学习模型，本实施例对此不作具体限定。

本实施例中，针对各实体，将实体的风险属性特征和关联风险特征进行拼接处理，得到实体的特征向量；将特征向量输入至预设的风险预测模型中，计算各实体的目标风险量化值。通过预先训练好的风险预测模型，对各实体的目标风险量化值进行计算，提高了风险识别的准确度与效率。

在一个实施例中，如图9所示，其示出了本申请实施例提供的一种风险预测方法的流程图，具体涉及的是生成预设的风险预测模型的一种可能的过程，该方法可以包括以下步骤：

步骤902、基于历史业务数据获取实体的历史特征向量，并获取为历史特征向量预先配置的初始风险标签。

步骤904、将实体的历史特征向量输入至初始风险预测模型中进行学习，生成预测风险标签。

步骤906、根据预测风险标签与初始风险标签，对初始风险预测模型进行更新，生成预设的风险预测模型。

其中，从历史业务数据中可以获取训练初始风险预测模型的正样本和负样本，以案件实体为例，正样本可以是以被发起调查且被判定为欺诈的案件实体，负样本可以是以未发起调查或发起调查但正常赔付的案件实体。基于历史业务数据可以构建实体关系图谱，根据实体关系图谱计算得到各实体的关联风险特征，再从历史业务数据中获取到各实体的风险属性特征，将实体的风险属性特征和关联风险特征进行拼接处理，得到实体的历史特征向量。再获取为历史特征向量预先配置的初始风险标签，将实体的历史特征向量输入至初始风险预测模型中进行学习，生成预测风险标签；根据预测风险标签与初始风险标签，对初始风险预测模型的模型参数进行更新，直至达到预设的收敛条件，并基于更新后的模型参数生成预设的风险预测模型。生成预设的风险预测模型后，还可以按照预设周期以最新历史业务数据重新训练并更新该风险预测模型，其中，预设周期可以根据实际需求设定。

本实施例中，基于历史业务数据获取实体的历史特征向量，并获取为历史特征向量预先配置的初始风险标签；将实体的历史特征向量输入至初始风险预测模型中进行学习，生成预测风险标签；根据预测风险标签与初始风险标签，对初始风险预测模型进行更新，生成预设的风险预测模型。通过根据预测风险标签与初始风险标签对初始风险预测模型不断地进行更新，提高了风险预测模型的预测精度。

在一个实施例中，实体对应至少一个实体类型；如图10所示，其示出了本申请实施例提供的一种风险预测方法的流程图，具体涉及的是生成风险预测结果的一种可能的过程，该方法可以包括以下步骤：

步骤1002、针对各实体类型，对实体类型下各实体的目标风险量化值按照大小关系进行排序生成排序结果。

步骤1004、从排序结果中选取与参考实体相邻的预设数量的实体作为目标实体，参考实体为最大的目标风险量化值对应的实体；或从排序结果中选取大于预设风险量化阈值的实体作为目标实体，并根据目标实体生成风险预测结果。

其中，各实体类型中均可以包括多个实体，对同一实体类型下各实体的目标风险量化值按照大小关系进行排序生成排序结果，例如，对于案件这一类型的实体，可以包括多个不同案号的案件实体，从而对每个案件实体的目标风险量化值按照大小关系进行排序。这里的按照大小关系进行排序可以是降序排列，也可以是升序排列。

从排序结果中选取与参考实体相邻的预设数量的实体作为目标实体，并根据目标实体生成风险预测结果，参考实体为最大的目标风险量化值对应的实体，例如，选取与最大的目标风险量化值对应的实体相邻的前10个实体生成风险预测结果。或者从排序结果中选取大于预设风险量化阈值的实体作为目标实体，并根据目标实体生成风险预测结果，例如，选取目标风险量化值大于90分的实体作为目标实体，并根据目标实体生成风险预测结果。生成的风险预测结果可以推送到反欺诈业务***，辅助反欺诈人员进行作业。

本实施例中，针对各实体类型，对实体类型下各实体的目标风险量化值按照大小关系进行排序生成排序结果；从排序结果中选取与参考实体相邻的预设数量的实体作为目标实体；或从排序结果中选取大于预设风险量化阈值的实体作为目标实体，并根据目标实体生成风险预测结果，生成风险预测结果的方式简单高效，进而提高了反欺诈作业的效率。

应该理解的是，虽然图2-10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-10中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

请参考图11，其示出了本申请实施例提供的一种风险预测装置1100的框图。如图11所示，该风险预测装置1100可以包括：获取模块1102、构建模块1104和生成模块1106，其中：

获取模块1102，用于从业务数据中获取多个实体及多个实体之间的关联关系；业务数据用于表征在不同业务类型下所产生的数据；

构建模块1104，用于根据多个实体及多个实体之间的关联关系，构建实体关系图谱；

生成模块1106，用于根据实体关系图谱计算实体的目标风险量化值，基于实体的目标风险量化值对实体进行风险预测，生成风险预测结果。

在一个实施例中，上述计算模块包括第一获取单元和第一计算单元，其中，第一获取单元用于基于业务数据获取各实体的风险标签；其中，风险标签用于表征实体的风险类型；第一计算单元用于根据各实体的风险标签以及实体关系图谱计算各实体的目标风险量化值。

在一个实施例中，上述第一计算单元具体用于根据各实体的风险标签，获取各实体的初始风险量化值；根据各实体的初始风险量化值、风险标签以及实体关系图谱，对各实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各实体的目标风险量化值。

在一个实施例中，上述第一计算单元还用于若实体的风险标签为欺诈类标签，则将实体的初始风险量化值作为实体的目标风险量化值。

在一个实施例中，实体关系图谱包括各实体及各实体之间的连接边，连接边用于表征各实体之间的关联关系；上述第一计算单元还用于若实体的风险标签为非欺诈类标签，则获取在实体关系图谱中与实体存在关联关系的目标实体，及目标实体在实体关系图谱中的连接边的数量；根据目标实体的初始风险量化值及目标实体在实体关系图谱中的边数量，对各实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各实体的目标风险量化值。

在一个实施例中，上述计算模块还包括第二获取单元、第三获取单元和第二计算单元，其中，第二获取单元用于基于业务数据获取各实体的风险属性特征；第三获取单元用于从实体关系图谱中获取各实体的关联风险特征；关联风险特征用于表征实体与其他实体之间的风险相关性；第二计算单元用于根据各实体的风险属性特征、各实体的关联风险特征，计算各实体的目标风险量化值。

在一个实施例中，上述第三获取单元具体用于基于随机游走算法，从实体关系图谱中获取各实体对应的游走序列；游走序列用于表征各实体在随机游走的过程中依次经过的实体；将各实体对应的游走序列输入至预设的Skip-Gram模型中，计算得到各实体的关联风险特征。

在一个实施例中，上述第二计算单元具体用于针对各实体，将实体的风险属性特征和关联风险特征进行拼接处理，得到实体的特征向量；将特征向量输入至预设的风险预测模型中，计算各实体的目标风险量化值。

在一个实施例中，上述计算模块还包括第四获取单元、输入单元和生成单元，其中，第四获取单元用于基于历史业务数据获取实体的历史特征向量，并获取为历史特征向量预先配置的初始风险标签；输入单元用于将实体的历史特征向量输入至初始风险预测模型中进行学习，生成预测风险标签；生成单元用于根据预测风险标签与初始风险标签，对初始风险预测模型进行更新，生成预设的风险预测模型。

在一个实施例中，实体对应至少一个实体类型；上述生成模块包括排序单元和生成单元，其中，排序单元用于针对各实体类型，对实体类型下各实体的目标风险量化值按照大小关系进行排序生成排序结果；生成单元用于从排序结果中选取与参考实体相邻的预设数量的实体作为目标实体，参考实体为最大的目标风险量化值对应的实体；或从排序结果中选取大于预设风险量化阈值的实体作为目标实体，并根据目标实体生成风险预测结果。

关于风险预测装置的具体限定可以参见上文中对于风险预测方法的限定，在此不再赘述。上述风险预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块的操作。

在本申请的一个实施例中，提供了一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：

在本申请的一个实施例中，实体关系图谱包括各实体及各实体之间的连接边，连接边用于表征各实体之间的关联关系；

处理器执行计算机程序时还实现以下步骤：

在本申请的一个实施例中，实体对应至少一个实体类型；

处理器执行计算机程序时还实现以下步骤：

本申请实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：

计算机程序被处理器执行时还实现以下步骤：

在本申请的一个实施例中，实体对应至少一个实体类型；

计算机程序被处理器执行时还实现以下步骤：

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种风险预测方法，其特征在于，所述方法包括：

从业务数据中获取多个实体及所述多个实体之间的关联关系；所述业务数据用于表征在不同业务类型下所产生的数据；

根据所述多个实体及所述多个实体之间的关联关系，构建实体关系图谱；

基于所述业务数据获取各所述实体的风险标签；其中，所述风险标签用于表征所述实体的风险类型；

根据各所述实体的风险标签，获取各所述实体的初始风险量化值；

若所述实体的风险标签为欺诈类标签，则将所述实体的初始风险量化值作为所述实体的目标风险量化值；

若所述实体的风险标签为非欺诈类标签，则获取在所述实体关系图谱中与所述实体存在关联关系的目标实体，及所述目标实体在所述实体关系图谱中的连接边的数量；其中，所述实体关系图谱包括各所述实体及各所述实体之间的所述连接边，所述连接边用于表征各所述实体之间的关联关系；

根据所述目标实体的初始风险量化值及所述目标实体在所述实体关系图谱中的边数量，对各所述实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各所述实体的目标风险量化值；其中，更新后的风险量化值的计算公式为：

其中，k为迭代更新次数；

为实体i的风险分，F为存量欺诈实体，

为与实体i存在关联关系的实体集合，

为实体j连接边的数量；

为实体i在迭代更新k-1次的风险分，

为实体j在迭代更新k-1次的风险分；

基于所述实体的目标风险量化值对所述实体进行风险预测，生成风险预测结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述业务数据获取各所述实体的风险属性特征；

从所述实体关系图谱中获取各所述实体的关联风险特征；所述关联风险特征用于表征所述实体与其他实体之间的风险相关性；

根据各所述实体的风险属性特征、各所述实体的关联风险特征，计算各所述实体的目标风险量化值。

3.根据权利要求2所述的方法，其特征在于，所述从所述实体关系图谱中获取各所述实体的关联风险特征，包括：

基于随机游走算法，从所述实体关系图谱中获取各所述实体对应的游走序列；所述游走序列用于表征各所述实体在随机游走的过程中依次经过的实体；

将各所述实体对应的游走序列输入至预设的Skip-Gram模型中，计算得到各所述实体的关联风险特征。

4.根据权利要求2所述的方法，其特征在于，所述根据各所述实体的风险属性特征、各所述实体的关联风险特征，计算各所述实体的风险量化值，包括：

针对各所述实体，将所述实体的风险属性特征和所述关联风险特征进行拼接处理，得到所述实体的特征向量；

将所述特征向量输入至预设的风险预测模型中，计算各所述实体的目标风险量化值。

5.根据权利要求4所述的方法，其特征在于，所述预设的风险预测模型的生成过程，包括：

基于历史业务数据获取所述实体的历史特征向量，并获取为所述历史特征向量预先配置的初始风险标签；

将所述实体的历史特征向量输入至初始风险预测模型中进行学习，生成预测风险标签；

根据所述预测风险标签与所述初始风险标签，对所述初始风险预测模型进行更新，生成所述预设的风险预测模型。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述实体对应至少一个实体类型；所述基于所述实体的目标风险量化值对所述实体进行风险预测，生成风险预测结果，包括：

针对各所述实体类型，对所述实体类型下各实体的目标风险量化值按照大小关系进行排序生成排序结果；

从所述排序结果中选取与参考实体相邻的预设数量的实体作为目标实体，所述参考实体为最大的目标风险量化值对应的实体；或

从所述排序结果中选取大于预设风险量化阈值的实体作为目标实体，并根据所述目标实体生成所述风险预测结果。

7.一种风险预测装置，其特征在于，所述装置包括：

获取模块，用于从业务数据中获取多个实体及所述多个实体之间的关联关系；所述业务数据用于表征在不同业务类型下所产生的数据；

构建模块，用于根据所述多个实体及所述多个实体之间的关联关系，构建实体关系图谱；

生成模块，用于根据所述实体关系图谱计算所述实体的目标风险量化值，基于所述实体的目标风险量化值对所述实体进行风险预测，生成风险预测结果；

所述生成模块包括第一获取单元和第一计算单元，其中，

所述第一获取单元用于基于所述业务数据获取各所述实体的风险标签；其中，所述风险标签用于表征所述实体的风险类型；

所述第一计算单元用于根据各所述实体的风险标签，获取各所述实体的初始风险量化值；若所述实体的风险标签为欺诈类标签，则将所述实体的初始风险量化值作为所述实体的目标风险量化值；若所述实体的风险标签为非欺诈类标签，则获取在所述实体关系图谱中与所述实体存在关联关系的目标实体，及所述目标实体在所述实体关系图谱中的连接边的数量；其中，所述实体关系图谱包括各所述实体及各所述实体之间的所述连接边，所述连接边用于表征各所述实体之间的关联关系；根据所述目标实体的初始风险量化值及所述目标实体在所述实体关系图谱中的边数量，对各所述实体的风险量化值进行更新，直至达到预设的迭代更新条件为止，得到各所述实体的目标风险量化值；其中，更新后的风险量化值的计算公式为：

其中，k为迭代更新次数；

为实体i的风险分，F为存量欺诈实体，

为与实体i存在关联关系的实体集合，

为实体j连接边的数量；

为实体i在迭代更新k-1次的风险分，

为实体j在迭代更新k-1次的风险分。

8.根据权利要求7所述的装置，其特征在于，所述实体对应至少一个实体类型；所述生成模块包括排序单元和生成单元，其中，

所述排序单元用于针对各所述实体类型，对所述实体类型下各实体的目标风险量化值按照大小关系进行排序生成排序结果；

所述生成单元用于从所述排序结果中选取与参考实体相邻的预设数量的实体作为目标实体，所述参考实体为最大的目标风险量化值对应的实体；或从所述排序结果中选取大于预设风险量化阈值的实体作为目标实体，并根据所述目标实体生成所述风险预测结果。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法的步骤。