CN117235608A

CN117235608A - 风险检测方法、装置、电子设备及存储介质

Info

Publication number: CN117235608A
Application number: CN202311508033.2A
Authority: CN
Inventors: 亚静; 高昊江; 赵龙虎; 王鸿亮; 王明哲
Original assignee: Shantou North Financial Technology Co ltd
Current assignee: Shantou North Financial Technology Co ltd
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2023-12-15
Anticipated expiration: 2043-11-14
Also published as: CN117235608B

Abstract

本发明实施例公开了一种风险检测方法、装置、电子设备及存储介质。包括：响应于针对待检测对象的资产需求请求，获取与待检测对象对应的多个参考风险特征以及多个候选风险指标，从各候选风险指标中选择基础风险指标；将基础风险指标和多个参考风险特征输入至预先训练完成的风险指标挖掘模型中，确定关联风险指标；根据基础风险指标和关联风险指标，于预设风险检测模型中的多条初始风险检测规则中选择目标风险检测规则；基于目标风险检测规则，对待检测对象的资产需求请求进行风险评估处理，得到风险评估结果，根据风险评估结果，确定待检测对象是否为风险对象，实现了使用具有通用性及可持续性的风险检测方式，对待检测对象进行风险检测。

Description

风险检测方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种风险检测方法、装置、电子设备及存储介质。

背景技术

用户信用风险是银行长期面临的最主要风险，监管机构也在不断推进资本管理办法实施细则，信用风险检测体系显得尤为重要。

目前，银行的风险检测方法，往往需要依赖人为风险防控经验进行检测，从而做出风险判断提示，使得现有风险检测方式通用性较差以及可持续化较弱。

发明内容

本发明提供了一种风险检测方法、装置、电子设备及存储介质，以实现使用具有通用性及可持续性的风险检测方式，对待检测对象进行风险检测。

根据本发明的一方面，提供了一种风险检测方法，该方法包括：

响应于针对待检测对象的资产需求请求，获取与所述待检测对象对应的多个参考风险特征以及多个候选风险指标，从各所述候选风险指标中选择基础风险指标；

将所述基础风险指标和所述多个参考风险特征输入至预先训练完成的风险指标挖掘模型中，确定所述多个参考风险特征中与所述基础风险指标关联的关联风险特征，作为关联风险指标；

根据所述基础风险指标和所述关联风险指标，于预设风险检测模型中的多条初始风险检测规则中选择目标风险检测规则；

基于所述预设风险检测模型中目标风险检测规则，对所述待检测对象的资产需求请求进行风险评估处理，得到风险评估结果，根据所述风险评估结果，确定所述待检测对象是否为风险对象。

根据本发明的另一方面，提供了一种风险检测装置。该装置包括：

基础指标选择模块，用于响应于针对待检测对象的资产需求请求，获取与所述待检测对象对应的多个参考风险特征以及多个候选风险指标，从各所述候选风险指标中选择基础风险指标；

关联指标挖掘模块，用于将所述基础风险指标和所述多个参考风险特征输入至预先训练完成的风险指标挖掘模型中，确定所述多个参考风险特征中与所述基础风险指标关联的关联风险特征，作为关联风险指标；

检测规则选择模块，用于根据所述基础风险指标和所述关联风险指标，于预设风险检测模型中的多条初始风险检测规则中选择目标风险检测规则；

风险检测模块，用于基于所述预设风险检测模型中目标风险检测规则，对所述待检测对象的资产需求请求进行风险评估处理，得到风险评估结果，根据所述风险评估结果，确定所述待检测对象是否为风险对象。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的风险检测方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的风险检测方法。

本发明实施例的技术方案，通过响应于针对待检测对象的资产需求请求，获取与所述待检测对象对应的多个参考风险特征以及多个候选风险指标，从各所述候选风险指标中选择基础风险指标；将所述基础风险指标和所述多个参考风险特征输入至预先训练完成的风险指标挖掘模型中，确定所述多个参考风险特征中与所述基础风险指标关联的关联风险特征，作为关联风险指标；根据所述基础风险指标和所述关联风险指标，于预设风险检测模型中的多条初始风险检测规则中选择目标风险检测规则；基于所述预设风险检测模型中目标风险检测规则，对所述待检测对象的资产需求请求进行风险评估处理，得到风险评估结果，根据所述风险评估结果，确定所述待检测对象是否为风险对象。本发明实施例的技术方案，实现了使用具有通用性及可持续性的风险检测方式，对待检测对象进行风险检测。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种风险检测方法的流程示意图；

图2为本发明实施例二提供的一种风险检测方法的流程示意图；

图3为本发明实施例三提供的一种风险检测装置的结构示意图；

图4为本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

可以理解的是，本技术方案所涉及的数据（包括但不限于数据本身、数据的获取或使用）应当遵循相应法律法规及相关规定的要求。

实施例一

图1为本发明实施例一提供的一种风险检测方法的流程示意图，本实施例可适用于对待检测对象进行风险检测的情况，该方法可以由风险检测装置来执行，该风险检测装置可以采用硬件和/或软件的形式实现，该风险检测装置可配置于诸如计算机或者服务器等的电子设备中。

如图1所示，本实施例的方法包括：

S110、响应于针对待检测对象的资产需求请求，获取与所述待检测对象对应的多个参考风险特征以及多个候选风险指标，从各所述候选风险指标中选择基础风险指标。

其中，待检测对象可以理解为需要进行风险检测的对象。待检测对象的数量可以为一个、两个或两个以上。生成资产需求请求的方式可以包括：获取待检测对象的资产需求信息表，基于所述资产需求信息表生成针对所述待检测对象的资产需求请求；其中，资产需求信息表可以包括资产需求信息。候选风险指标可以理解为用于选择基础风险指标的风险指标。基础风险指标可以理解为从候选风险指标中选择出来的用于选择关联风险指标的风险指标。参考风险特征可以理解为用于从候选风险指标中选择出与基础风险指标关联的关联风险指标。

在本发明实施例中，从各所述候选风险指标中选择基础风险指标，可以包括：响应于针对各候选风险指标的指标选择操作，从而可以根据所述指标选择操作得到选中的候选风险指标，并将选中的候选风险指标作为基础风险指标。其中，指标选择操作可以理解为用于从候选风险指标中选择基础风险指标的操作。

S120、将所述基础风险指标和所述多个参考风险特征输入至预先训练完成的风险指标挖掘模型中，确定所述多个参考风险特征中与所述基础风险指标关联的关联风险特征，作为关联风险指标。

其中，风险指标挖掘模型可以理解为用于基于所述基础风险指标和所述多个参考风险特征从多个参考风险特征中与所述基础风险指标关联的关联风险特征的模型。关联风险指标可以理解为与所述基础风险指标关联的关联风险特征。在本发明实施例中，从所述多个参考风险特征中与所述基础风险指标关联的关联风险特征，可辅助风险人员设计风险规则，以进一步弥补专家经验模型的特征不足，间接辅助提升模型的精准度。

具体的，按照下述步骤将所述基础风险指标和所述多个参考风险特征输入至预先训练完成的风险指标挖掘模型中，确定所述多个参考风险特征中与所述基础风险指标关联的关联风险特征，作为关联风险指标：

步骤一，对参考风险特征进行分词、去除停用词和无效字符、词干化等预处理操作，得到参考风险特征的向量表示。

步骤二，构造注意力模型，将预处理的参考风险特征输入到Transformer模型中，通过经过嵌入层和编码器层，得到每个位置的特征表示。利用自注意力机制，计算每个位置的注意力权重。具体地，将特征表示作为查询（Query）和键（Key）输入到注意力层，计算注意力权重矩阵。权重矩阵计算公式如下：

其中，K表示输入特征的向量键（Key），用于计算注意力权重。键的作用是帮助模型理解输入中不同位置的重要性和关联性，即基础风险指标和参考风险特征之间的关联性。V（Value）是与输入特征相关联的向量，用于为每个位置提供一个权重。Value向量在注意力计算中起到加权的作用，决定了每个位置对最终特征表示的贡献程度。Q（Query）可以用于表示当前位置的特征向量，用于计算与其他位置的关联度。Query向量通过与键向量进行相似度计算，得到与其他位置的注意力权重。

通过计算查询向量与键向量之间的相似度，得到一个注意力权重矩阵。该矩阵用于加权值向量，以得到最终的特征表示。通过对查询、键和值进行加权计算，自注意力机制能够捕捉输入序列中不同位置的关联性和重要性。

步骤三、进行特征显著性分析，通过注意力权重矩阵的可视化来展示特征的显著性，显示不同位置之间的显著程度。提取的显著性特征作为专家提取风控特征的依据，提取风控规则。

在本发明实施例中，所述方法还可以包括：获取第一训练样本，其中，所述第一训练样本可以包括风险指标样本、多个风险特征样本以及各所述风险特征样本和所述风险指标样本之间的期望关联结果。从而可以将所述第一训练样本输入至预先构建的注意力机制和深度学习模型中，得到各所述风险特征样本和所述风险指标样本之间的实际关联结果。进而可以基于所述实际关联结果和所述期望关联结果，对所述注意力机制和深度学习模型的模型参数进行调整，以得到训练完成的风险指标挖掘模型。

S130、根据所述基础风险指标和所述关联风险指标，于预设风险检测模型中的多条初始风险检测规则中选择目标风险检测规则。

其中，预设风险检测模型可以理解为预先设置的用于对待检测对象进行风险检测的模型。预设风险检测模型可以包括多条初始风险检测规则。初始风险检测规则可以为相关人员设置的检测规则。在本发明实施例中，初始风险检测规则携带有规则属性信息。其中，规则属性信息可以包括规则标签、规则所属行业信息、规则中包含的风险指标以及规则优先级等等。在本发明实施例中，规则标签可以用于区分规则的使用频率。示例性的，规则标签可以包括核心规则、重要规则、普通规则以及无用规则等。目标风险检测规则可以理解为在多个初始风险检测规则中用于对待检测对象进行风险检测的检测规则。目标风险检测规则的数量可以为一个、两个或两个以上。在实际应用中，目标风险检测规则的数量通常为多个。在本发明实施例中，风险检测模型通常配置有多个目标风险检测规则。

具体的，针对预设风险检测模型中的每条初始风险检测规则，确定所述初始风险检测规则是否包括有所述基础风险指标和/或所述关联风险指标；若是，则可以将所述初始风险检测规则作为目标风险检测规则。

在本发明实施例中，所述方法还可以包括：针对所述目标风险检测规则中的每个规则风险指标，可以将所述规则风险指标输入至预先训练完成的指标值推荐模型中，从而得到所述规则风险指标的指标推荐值；进而可以基于所述指标推荐值更新所述规则风险指标的指标值。

其中，规则风险指标可以理解为目标风险检测规则中包含的风险指标。指标推荐值可以理解为针对规则风险指标的推荐值。指标值推荐模型可以理解为用于得到所述规则风险指标的指标推荐值的模型。在本发明实施例中，指标阈值推荐模型针对规则风险指标所推荐的指标推荐值可以为极值、均值或中位数，其数值可根据实际需求确定，在此不做具体限定。在本发明实施例中，指标值推荐模型可以是基于生成式预训练模型构建的。所述指标值推荐模型的训练样本可以包括多个历史风险指标以及与各所述历史风险指标对应的预期指标值。

在上述实施例的基础上，在于预设风险检测模型中的多条初始风险检测规则中选择目标风险检测规则后，即在得到构建完成的风险检测模块后，所述方法还可以包括：生成测试数据集，其中，所述测试数据集可以包括测试样本数据和与所述测试样本数据对应的期望输出结果；将所述测试样本数据，输入至所述风险检测模型，得到实际输出结果；基于所述期望输出结果和所述实际输出结果，对所述风险检测模型中目标风险检测规则的规则参数进行调整。

其中，测试数据集可以理解为用于对训练完成的风险检测模型进行测试的数据集。在本发明实施例中，生成测试数据集的方式，具体可以为，基于训练完成的生成式预训练模型生成风险样本数据以及与所述风险样本数据对应的期望输出结果，以作为测试数据集。

可选地，可以按照下述步骤基于训练完成的生成式预训练模型生成风险样本数据：

步骤一、获取少量样本数据。具体的，收集涵盖不同领域和行业的风险样本数据，可以包括已知的风险事件、异常行为以及欺诈案例等。在获取到样本数据后，可以对获取到的样本数据进行清洗、去重以及标注等数据处理，以确保数据的质量和一致性。

步骤二、将经过数据处理的样本数据输入至GPT预训练模型中，以利用GPT预训练模型的生成能力，给定一些初始文本或条件，生成连续的文本序列作为风险样本数据。需要说明的是，在样本数据生成的过程中，可以调整模型的参数以达到所需的生成效果。

步骤三、对生成的风险样本数据进行评估和筛选，以确保生成样本的合理性和适用性。

为了提升生成样本的质量，在上述实施例的基础上，还可以结合专家知识和领域规则，对生成样本进行人工审核和标注。

需要说明的是，基于生成式预训练模型的方法生成风险样本数据，可自动化生成样本数据，降低人工数据准备的成本。还需要说明的是，基于生成式预训练模型的方法生成风险样本数据，可增加样本多样性和覆盖范围。相较于传统的贝叶斯等模型，生成式预训练模型减少对真实数据的依赖，降低数据获取和处理的成本。

S140、基于所述预设风险检测模型中目标风险检测规则，对所述待检测对象的资产需求请求进行风险评估处理，得到风险评估结果，根据所述风险评估结果，确定所述待检测对象是否为风险对象。

其中，风险评估结果可以是基于所述预设风险检测模型中选择出的目标风险检测规则，对所述待检测对象的资产需求请求进行风险评估处理后得到的评估结果。风险评估结果可以用于确定待检测对象是否为风险对象。

具体的，按照所述预设风险检测模型中的目标风险检测规则的优先级或预设执行顺序，依次对所述待检测对象的资产需求请求进行风险评估处理，从而得到风险评估结果。进而可以根据所述风险评估结果，确定所述待检测对象是否为风险对象。

在本发明实施例中，所述基于所述预设风险检测模型中目标风险检测规则，对所述待检测对象的资产需求请求进行风险评估处理，可以包括：基于所述待检测对象的资产需求请求，获取所述待检测对象的资产关联数据；基于所述预设风险检测模型中目标风险检测规则，对所述待检测对象的资产关联数据进行风险评估处理。

其中，资产关联数据可以理解为与资产相关联的数据。示例性的，资产关联数据可以包括年龄、工作信息、存款数据、收入数据、逾期次数以及已参与资产次数等。

在本发明实施例中，获取所述待检测对象的资产关联数据，具体可以包括：在接收到待检测对象的资产需求请求后，可以确定用于存储待检测对象的资产关联数据的数据库。进而可以从所述数据库中获取所述待检测对象的资产关联数据。

在本发明实施例中，基于所述预设风险检测模型中目标风险检测规则，对所述待检测对象的资产关联数据进行风险评估处理，可以包括：确定风险检测模型中配置的各目标风险检测规则的先后执行顺序；按照所述先后执行顺序依次基于各目标风险检测规则，分别对与各所述目标风险检测规则对应的资产关联数据进行风险评估处理。

在上述实施例的基础上，在获取所述待检测对象的资产关联数据之后，所述方法还可以包括：基于预设数据预处理模型对所述资产关联数据进行数据预处理。其中，所述预设数据预处理模型可以包括数据去重模型、缺失值补充模型以及离群值处理模型中的至少一个。所述数据去重模型可以是采用词嵌入模型训练得到的。所述缺失值补充模型可以是采用生成式预训练模型训练得到的。所述离群值处理模型可以是采用生成对抗网络模型训练得到的。

作为本发明实施例的一种可选的实施方式，在资产关联数据的数量多个的情况下，可以按照下述步骤基于数据去重模型对资产关联数据进行数据预处理：

步骤一、从各资产关联数据中选择两个资产关联数据。可选地，选中的两个资产关联数据可以包括第一数据和第二数据。利用词嵌入模型（Word2Vec）分别将第一数据和第二数据转换为语义向量，采用余弦相似度计算选择的两个资产关联数据之间的语义相似度。

需要说明的是，在本发明实施例中，使用Word2Vec可以检测到即使表达方式不同但含义相似的文本，从而有效捕捉文本的语义信息，将文本映射到连续向量空间中，相似含义的文本词在向量空间中距离较近，从而捕捉到文本词之间的语义关系。进一步提升数据去重的效率。

可选地，按照下述公式，计算两个资产关联数据之间的语义相似度：

其中，可以表示为第一数据和第二数据之间的语义相似度，A可以表示为第一数据，B可以表示为第二数据，E_A可以表示为第一数据的语义向量，E_B可以表示为第二数据的语义向量。

步骤二、将所述语义相似度和预设相似度阈值进行大小比较，在所述语义相似度大于所述预设相似度阈值的情况下，将所述语义相似度对应的两个资产关联数据视为重复数据。

需要说明的，在本方明实施例中，预设相似度阈值可以根据实际需求设置，在此不做具体限定。

步骤三、在确定两个资产关联数据为重复数据后，可以将所述两个资产关联数据进行标记处理。

在本发明实施例中，可以采用（0,1）标签的方式进行数据标记，其中，0可以表示为数据不重复，1可以表示为数据重复。示例性的，在两个资产关联数据为重复数据的情况下，可以将两个资产关联数据的标签设置为1；在两个资产关联数据并非为重复数据的情况下，可以将两个资产关联数据的标签设置为0。

步骤四，在接收到针对所述两个资产关联数据的删除操作后，将所述两个资产关联数据中的任意一个数据进行删除处理。

为了提升处理效率，可以使用Milvus建立向量索引。Milvus具有高性能、高可用、高可靠等特点，专为向量查询与检索设计，能够为万亿级向量数据建立索引，从而提升数据去重的效率。

在本发明实施例中，使用所述数据去重模型进行数据处理，能够解决数据冗余和重复问题，通过语义相似度，识别和删除重复数据，提高数据质量和准确性，从而降低冗余数据带来的风险和成本。

作为本发明实施例的一种可选的实施方法，可以按照下述步骤基于缺失值补充模型对资产关联数据进行数据预处理：

步骤一、确定各所述资产关联数据中包含缺失值的数据。

步骤二、对所述包含缺失值的数据进行预处理，包括分词、去除无效字符和停用词、词干化、词形还原等文本规范化处理，从而得到预处理后的数据。进而可以将预处理后的数据输入到GPT模型微调模块中，对GPT模型进行微调以适应特定领域的数据填充任务。

步骤二、对于每个缺失位置，模型通过生成填充值的概率分布来预测该位置的值。进而可以使用负对数似然损失函数计算模型生成的填充值与真实填充值之间的差异。

在本发明实施例中，负对数似然损失函数可表示为：

其中，L表示损失函数，表示真实的填充值，/>表示上下文信息。

在本发明实施例中，通过最小化负对数似然损失函数，可使得模型能够学习到生成合理填充值的概率分布，并提高填充值的准确性和一致性。

步骤三、利用微调后的GPT模型对缺失文本数据进行填充。对于每个缺失值，***将缺失的文本作为输入传递给GPT模型，模型将生成一个预测值作为填充值。

在本发明实施例中，填充值的生成基于模型对文本数据的理解和学习，能够根据文本的上下文和语义信息生成合理的填充值。

在本发明实施例中，相较于传统基于回归模型的缺失值填充方法，采用生成式预训练模型GPT，可使得生成式预训练语言模型能够理解和生成自然语言的复杂结构，例如，句子的语法、上下文关系和语义含义。在缺失值填充任务中，这使得模型能够基于文本的上下文生成合理的填充值，而不仅仅是依赖于简单的数值回归。在本发明实施例中，针对数据不完整问题，利用生成式模型得到缺失文本数据的预测值，并用于填充缺失值，提高数据的完整性和可用性。

作为本发明实施例的一种可选的实施方法，可以按照下述步骤基于离群数据处理模型对资产关联数据进行数据预处理：

步骤一、构建生成对抗网络架构。具体的，可以基于深度卷积生成对抗网络（DCGAN）构造生成器和判别器网络架构。其中，生成器用于生成伪造的数据样本，判别器用于区分真实数据样本和伪造的数据样本。

步骤二、对生成器和判别器进行训练，以得到已训练好的生成对抗网络模型。

在本发明实施例中，对生成器和判别器进行训练，以使二者相互竞争和合作，从而逐渐提高生成器生成逼真样本的能力，并提升判别器能够准确区分真实数据和伪造数据。训练过程中，使用正常数据样本作为真实数据输入，生成伪造的数据样本作为伪造数据输入。对于生成器训练，初始化输入是一个随机向量，输出是基于随机向量生成的伪造数据样本。判别器的输入可以是真实的数据样本或由生成器生成的伪造数据样本，输出是一个介于0和1之间的标量，表示判别器认为输入样本是真实的概率。

步骤三、使用已训练好的生成对抗网络模型对各资产关联数据进行异常值检测。将资产关联数据作为数据样本输入生成器，生成相应的伪造数据样本。然后使用判别器对真实数据样本和伪造数据样本进行分类。如果数据样本被判别器分类为伪造数据的概率高，那么，可以确定该数据为异常数据。

在本发明实施例中，可设定适当的阈值区分资产关联数据是否为异常数据。可选地，得到所述适当的阈值可以根据生成器生成的数据样本与真实数据样本之间的距离、重建误差或判别器的分类置信度等来确定阈值。步骤四，在确定异常数据后，可以将异常数据输出。

在本发明实施例中，相较于传统异常检测方法无法有效处理复杂和高维数据的异常检测问题，使用生成对抗网络（GAN）实现利群值检测方法，其具有出色的数据生成和判别能力，可实现对离群值的处理，提高数据质量和准确性。

在上述实施例的基础上，所述方法还可以包括对资产关联数据进行数据归一化处理方式数据预处理：

其中，x’可以表示为对资产关联数据进行归一化处理后得到的数据。可以表示为资产关联数据。x_min可以表示为x对应属性A（如资产人年收入）的最小值。x_max可以表示为x对应属性（如资产人年收入）的最大值。将属性A的原始值x过min-max标准化映射成在区间[0, 1]中的值x’。

在上述实施例的基础上，如果所述待检测对象为风险对象，则可以将所述待检测对象的对象特征信息存储至预先设置的对象黑名单中；如果所述待检测对象并非为风险对象，则可以将所述待检测对象的对象特征信息存储至预先设置的对象白名单中。其中，对象黑名单可以理解为用于存储风险对象的对象特征信息的数据表。对象白名单可以理解为用于存储非风险对象的对象特征信息的数据表。

在本发明实施例中，如果所述待检测对象为风险对象，则可以基于所述待检测对象的对象特征信息，生成风险画像。其中，对象特征信息可以理解为用于表征待检测对象的特征信息，例如，职业、年龄以及性别等身份信息。

在本发明实施例中，可按照下述步骤生成风险画像：

步骤一，确定待检测对象的对象特征信息，对所述对象特征信息进行标准化处理。

在本发明实施例中，对对象特征信息进行标准化处理的目的为：由于各特征可能具有不同的量纲，需要进行标准化处理，使得各特征在模型中的重要性相等。

步骤二、训练模型。具体的，设置合适的邻域半径（eps）和最小点数（MinPts）。将标准化后的数据输入至DBSCAN模型中，得到聚类结果。在得到聚类结果后，可以对聚类结果进行评估，包括：计算簇内的点与簇中心之间的距离和。根据评估结果对DBSCAN的参数进行调整，以达到理想的聚类效果，以得到训练完成的风险画像生成模型。

步骤三、将待检测对象的对象特征信息输入至训练完成的风险画像生成模型中，得到所述待检测对象的特征画像，即待检测对象的风险画像。

在本发明实施例中，相较于简单的K-means，使用DBSCAN模型不仅无需指定类别的个数，而且还能够处理特征模式复杂的数据，此外，使用DBSCAN模块可对较为复杂的数据处理更为有效。

在上述实施例的基础上，所述方法还可以包括：在所述资产关联数据命中所述目标风险检测规则的情况下，可以确定被命中的目标风险检测规则的规则详情信息，并在预设界面中显示所述规则详情信息。其中，规则详情信息可以包括目标风险检测规则的规则内容、规则使用率以及规则标签等。预设界面可以理解为用于显示目标风险检测规则的规则详情信息的界面。在本发明实施例中，资产关联数据命中目标风险检测规则可以理解为，资产关联数据处于目标风险检测规则的风险指标的指标阈值范围内。

可以理解的是，如果所述待检测对象为非风险对象，则可以对所述待检测对象的资产需求请求进行处理，反之，则可以不处理所述待检测对象的资产需求请求。

实施例二

图2为本发明实施例二提供的一种风险检测方法的流程示意图，在前述实施例的基础上，可选地，所述从各所述候选风险指标中选择基础风险指标，包括：将各所述候选风险指标输入至预先训练完成的特征推荐模型中，得到所述各所述候选风险指标的指标得分；针对每个候选风险指标，将所述候选风险指标的指标得分和预设得分阈值进行大小比较，若所述指标得分大于预设得分阈值，则将所述候选风险指标作为基础风险指标。其中，与上述实施例相同或相似的技术特征在此不再赘述。

如图2所示，本实施例的方法具体包括：

S210、响应于针对待检测对象的资产需求请求，获取与所述待检测对象对应的多个参考风险特征以及多个候选风险指标。

S220、将各所述候选风险指标输入至预先训练完成的特征推荐模型中，得到所述各所述候选风险指标的指标得分。

其中，特征推荐模型可以理解为用于从各候选风险指标中选择基础风险指标的模型。在本发明实施例中，得到特征推荐模型的方式，具体可以为：获取第二训练样本，其中，所述第二训练样本可以包括多个历史风险指标和在所述多个历史风险指标中的预期关键风险指标。进而可以将所述多个历史风险指标输入至预先构建的弹性网络回归模型中，从而得到在所述多个历史风险指标中的实际关键风险指标；进而可以基于所述预期关键风险指标和所述实际关键风险指标，对所述弹性网络回归模型的模型参数进行调整，以得到训练完成的特征推荐模型。指标得分可以理解为将候选风险指标输入至特征推荐模型后得到的针对所述的候选风险指标的得分，可以用于确定所述候选风险指标是否为基础风险指标。

在本发明实施例中，弹性网络模型的优化目标函数如下：

其中，x_ij可以表示为输入候选风险指标对应的向量。y_j可以表示为输入的候选风险指标是否为关键风险指标，也就是可以作为关键特征。m可以表示为样本数量。d可以表示为特征数量。输出是选择出的可以作为关键特征的风险指标索引列表。是混合参数，/>是正则化参数。

在本发明实施例中，当=0时，弹性网回归即为岭回归；当/>=1时，弹性网回归即为Lasso回归。也就是说，弹性网回归兼有Lasso回归和岭回归的优点，既能达到变量选择的目的，又具有很好的群组效应。

在本发明实施例中，按照下述步骤采用弹性网络（Elastic-Net）回归模型从各所述候选风险指标中选择基础风险指标：

步骤一、对候选风险指标的特征矩阵进行标准化，以使每个特征的均值为0，方差为1。对目标向量进行中心化，使其均值为0。

步骤二、计算特征重要性，使用Elastic-Net回归算法，将特征矩阵和目标向量拟合到模型中，设置合适的混合参数和正则化参数，对模型进行训练，得到回归系数。计算每个特征的绝对值系数的和，得到特征重要性得分。对特征重要性得分进行归一化处理，使得得分范围在0到1之间。根据预设的阈值或指定的特征数目，筛选出重要性得分最高的个特征作为选定特征，即基础风险指标。

步骤三、进行模型验证，使用选定的特征重新训练Elastic-Net回归模型，并进行模型验证和性能评估，以得到训练完成的弹性网络（Elastic-Net）回归模型，即特征推荐模型。

在本发明实施中，采用弹性网络（Elastic-Net）回归模型进行风险指标选择，可综合考虑特征重要性和稀疏性，从而提高模型性能和解释能力。

S230、针对每个候选风险指标，将所述候选风险指标的指标得分和预设得分阈值进行大小比较，若所述指标得分大于预设得分阈值，则将所述候选风险指标作为基础风险指标。

其中，预设得分阈值可根据实际需求设置，在此不做具体限定。

具体的，预设得分阈值，针对每个候选风险指标，可以将所述候选风险指标的指标得分和预设得分阈值进行大小比较，从而可以得到比较结果。在比较结果为指标得分大于预设得分阈值的情况下，则可以将所述候选风险指标作为基础风险指标。

S240、将所述基础风险指标和所述多个参考风险特征输入至预先训练完成的风险指标挖掘模型中，确定所述多个参考风险特征中与所述基础风险指标关联的关联风险特征，作为关联风险指标。

S250、根据所述基础风险指标和所述关联风险指标，于预设风险检测模型中的多条初始风险检测规则中选择目标风险检测规则。

S260、基于所述预设风险检测模型中目标风险检测规则，对所述待检测对象的资产需求请求进行风险评估处理，得到风险评估结果，根据所述风险评估结果，确定所述待检测对象是否为风险对象。

本发明实施例的技术方案，通过将各所述候选风险指标输入至预先训练完成的特征推荐模型中，得到所述各所述候选风险指标的指标得分；针对每个候选风险指标，将所述候选风险指标的指标得分和预设得分阈值进行大小比较，若所述指标得分大于预设得分阈值，则将所述候选风险指标作为基础风险指标，实现了能够自动化从候选风险指标中选择出较为合理且有效的基础风险指标，从而提升了风险检测的准确性。

实施例三

图3为本发明实施例三提供的一种风险检测装置的结构示意图。如图3所示，该装置包括：基础指标选择模块310、关联指标挖掘模块320、检测规则选择模块330和风险检测模块340。

其中，基础指标选择模块310，用于响应于针对待检测对象的资产需求请求，获取与所述待检测对象对应的多个参考风险特征以及多个候选风险指标，从各所述候选风险指标中选择基础风险指标；关联指标挖掘模块320，用于将所述基础风险指标和所述多个参考风险特征输入至预先训练完成的风险指标挖掘模型中，确定所述多个参考风险特征中与所述基础风险指标关联的关联风险特征，作为关联风险指标；检测规则选择模块330，用于根据所述基础风险指标和所述关联风险指标，于预设风险检测模型中的多条初始风险检测规则中选择目标风险检测规则；风险检测模块340，用于基于所述预设风险检测模型中目标风险检测规则，对所述待检测对象的资产需求请求进行风险评估处理，得到风险评估结果，根据所述风险评估结果，确定所述待检测对象是否为风险对象。

可选地，该装置还包括风险指标挖掘模型训练模块，用于：

获取第一训练样本，其中，所述第一训练样本包括风险指标样本、多个风险特征样本以及各所述风险特征样本和所述风险指标样本之间的期望关联结果；

将所述第一训练样本输入至预先构建的注意力机制和深度学习模型中，得到各所述风险特征样本和所述风险指标样本之间的实际关联结果；

基于所述实际关联结果和所述期望关联结果，对所述注意力机制和深度学习模型的模型参数进行调整，以得到训练完成的风险指标挖掘模型。

可选地，基础指标选择模块310，用于：

将各所述候选风险指标输入至预先训练完成的特征推荐模型中，得到所述各所述候选风险指标的指标得分；

针对每个候选风险指标，将所述候选风险指标的指标得分和预设得分阈值进行大小比较，若所述指标得分大于预设得分阈值，则将所述候选风险指标作为基础风险指标。

可选地，该装置还包括特征推荐模型训练模块，用于：

获取第二训练样本，其中，所述第二训练样本包括多个历史风险指标和在所述多个历史风险指标中的预期关键风险指标；

将所述多个历史风险指标输入至预先构建的弹性网络回归模型中，得到在所述多个历史风险指标中的实际关键风险指标；

基于所述预期关键风险指标和所述实际关键风险指标，对所述弹性网络回归模型的模型参数进行调整，以得到训练完成的特征推荐模型。

可选地，该装置还包括指标值推荐模块，用于：

针对所述目标风险检测规则中的每个规则风险指标，将所述规则风险指标输入至预先训练完成的指标值推荐模型中，得到所述规则风险指标的指标推荐值，基于所述指标推荐值更新所述规则风险指标的指标值；

其中，所述指标值推荐模型是基于生成式预训练模型构建的，所述指标值推荐模型的训练样本包括多个历史风险指标以及与各所述历史风险指标对应的预期指标值。

可选地，风险检测模块340，用于：

基于所述待检测对象的资产需求请求，获取所述待检测对象的资产关联数据；

基于所述预设风险检测模型中目标风险检测规则，对所述待检测对象的资产关联数据进行风险评估处理。

可选地，该装置还包括数据预处理模块，用于：

在获取所述待检测对象的资产关联数据之后，基于预设数据预处理模型对所述资产关联数据进行数据预处理，其中，所述预设数据预处理模型包括数据去重模型、缺失值补充模型以及离群值处理模型中的至少一个；所述数据去重模型是采用词嵌入模型训练得到的，所述缺失值补充模型是采用生成式预训练模型训练得到的，所述离群值处理模型是采用生成对抗网络模型训练得到的。

本发明实施例所提供的风险检测装置可执行本发明任意实施例所提供的风险检测方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述风险检测装置所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

实施例四

图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出（I/O）接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如风险检测方法。

在一些实施例中，风险检测方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的风险检测方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行风险检测方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上***的***（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的***和技术，该电子设备具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***（例如，作为数据服务器）、或者包括中间件部件的计算***（例如，应用服务器）、或者包括前端部件的计算***（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将***的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种风险检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述从各所述候选风险指标中选择基础风险指标，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述预设风险检测模型中目标风险检测规则，对所述待检测对象的资产需求请求进行风险评估处理，包括：

7.根据权利要求6所述的方法，其特征在于，在获取所述待检测对象的资产关联数据之后，所述方法还包括：

基于预设数据预处理模型对所述资产关联数据进行数据预处理，其中，所述预设数据预处理模型包括数据去重模型、缺失值补充模型以及离群值处理模型中的至少一个；所述数据去重模型是采用词嵌入模型训练得到的，所述缺失值补充模型是采用生成式预训练模型训练得到的，所述离群值处理模型是采用生成对抗网络模型训练得到的。

8.一种风险检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的风险检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的风险检测方法。