CN113052512A

CN113052512A - 风险预测方法、装置和电子设备

Info

Publication number: CN113052512A
Application number: CN202110516028.0A
Authority: CN
Inventors: 陈李龙; 王娜; 强锋; 刘华杰
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-06-29

Abstract

本公开提供了一种风险预测方法、装置和电子设备，可用于人工智能领域、金融领域等。该风险预测方法包括：获取待预测数据；获取待预测数据的风险特征；以及利用经训练的风险预测模型处理风险特征，得到风险预测结果，风险预测结果包括待预测数据所属的类别；其中，每个类别的样本数据包括边界样本数据，风险预测模型的目标函数包括边界样本判别约束项，边界样本判别约束项使得分别属于不同类别的边界样本数据在输出空间中的第一距离，大于分别属于同类别的边界样本数据在输出空间的第二距离。

Description

风险预测方法、装置和电子设备

技术领域

本公开涉及人工智能技术领域和金融领域，更具体地，涉及一种风险预测方法、装置和电子设备。

背景技术

对于多类机构而言，风险预测是热点问题。例如，随着金融行业的发展，法人贷款业务在金融机构中所占的比重越来越大，对法人贷款业务的风险预测就成为越来越重要的事宜。

在实现本公开构思的过程中，申请人发现相关技术中至少存在如下问题，某些业务场景(如贷款业务场景)具有复杂性高特点，使得很难在处理该业务前发现高风险客户，导致业务处理异常，如不良贷款愈发严重，会对机构造成不利影响。

发明内容

有鉴于此，本公开提供了一种风险预测方法、装置和电子设备，以至少部分解决高风险预测的问题。

本公开的一个方面提供了风险预测方法，包括：获取待预测数据；获取待预测数据的风险特征；以及利用经训练的风险预测模型处理风险特征，得到风险预测结果，风险预测结果包括待预测数据所属的类别；其中，每个类别的样本数据包括边界样本数据，风险预测模型的目标函数包括边界样本判别约束项，边界样本判别约束项使得分别属于不同类别的边界样本数据在输出空间中的第一距离，大于分别属于同类别的边界样本数据在输出空间的第二距离。

根据本公开实施例，类别包括正样本类别和负样本类别；以及边界样本判别约束项包括：正样本子约束项、负样本子约束项和交叉项，其中，正样本子约束项的输出和模型处理正样本数据的子结果与模型处理边界正样本子集合的均值的子结果之间的差值相关，负样本子约束项的输出和模型处理负样本数据的子结果与模型处理边界负样本子集合的均值的子结果之间的差值相关，交叉项的输出和模型处理正样本数据的子结果与模型处理负样本数据的子结果的乘积相关。

根据本公开实施例，获取待预测数据的风险特征包括：获取待预测数据的针对基础信息视角的子特征、获取待预测数据的针对经营信息视角的子特征和获取待预测数据的针对行为信息视角的子特征中至少一种。

根据本公开实施例，边界样本判别约束项包括以下至少一种：针对基础信息视角的正样本子约束项、负样本子约束项和交叉项；针对经营信息视角的正样本子约束项、负样本子约束项和交叉项；或者针对行为信息视角的正样本子约束项、负样本子约束项和交叉项。

根据本公开实施例，风险预测模型的目标函数还包括视角间边界样本判别约束项，视角间边界样本判别约束项使得同类别的边界样本的均值在不同视角各自中的输出趋于一致。

根据本公开实施例，视角间边界样本判别约束项包括以下至少一种：针对不同视角的正样本子约束项和负样本子约束项；或者针对不同视角的正样本子约束项和负样本子约束项。

根据本公开实施例，训练风险预测模型包括：获取训练样本数据集合，训练样本数据集合包括正训练样本数据子集合和负训练样本数据子集合；基于样本的异类近邻信息确定正训练样本数据子集合中边界正样本子集合，并且基于样本的异类近邻信息确定负训练样本数据子集合中边界负样本子集合；以及将正训练样本数据子集合和/或负训练样本数据子集合输入风险预测模型，调节风险预测模型的参数，直至达到预设迭代次数或者两次迭代过程中目标函数的损失函数差值小于预设阈值。

根据本公开实施例，基于样本的异类近邻信息确定正训练样本数据子集合中边界正样本子集合包括：对于任意负样本，将与该负样本近邻的第一指定个数的正类样本加入边界正样本子集合；以及基于样本的异类近邻信息确定负训练样本数据子集合中边界负样本子集合包括：对于任意正样本，将与该正样本近邻的第二指定个数的负类样本加入边界负样本子集合。

根据本公开实施例，上述方法还包括：利用测试样本集合对经训练的风险预测模型进行测试，得到风险预测结果的测试准确度。

根据本公开实施例，获取待预测数据的风险特征包括以下至少一种：对待预测数据中类别数据进行独热编码，得到类别特征；对待预测数据中经营信息和/或行为信息的关联数据进行计算，得到衍生特征。

根据本公开实施例，目标函数还包括经验损失约束项和正则化约束项。

根据本公开实施例，每个类别的样本数据还包括非边界样本数据，同一类别中边界样本数据相对于类中心之间的第三距离大于非边界样本数据相对于类中心之间的第四距离。

本公开的一个方面提供了一种风险预测装置，包括：数据获取模块、风险特征获取模块和风险特征处理模块。其中，数据获取模块用于获取待预测数据；风险特征获取模块用于获取待预测数据的风险特征；以及风险特征处理模块用于利用经训练的风险预测模型处理风险特征，得到风险预测结果，风险预测结果包括待预测数据所属的类别；其中，每个类别的样本数据包括边界样本数据，风险预测模型的目标函数包括边界样本判别约束项，边界样本判别约束项使得分别属于不同类别的边界样本数据在输出空间中的第一距离，大于分别属于同类别的边界样本数据在输出空间的第二距离。

本公开的另一方面提供了一种电子设备，包括一个或多个处理器以及存储装置，其中，存储装置用于存储可执行指令，可执行指令在被处理器执行时，实现如上的风险预测方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，指令在被执行时用于实现如上的风险预测方法。

本公开的另一方面提供了一种计算机程序，计算机程序包括计算机可执行指令，指令在被执行时用于实现如上的风险预测方法。

本公开实施例提供的风险预测方法、装置和电子设备，通过边界样本集计算两类边界样本数据集的均值，以对边界样本特有的分布信息进行挖掘和学***面。本公开实施例提供的边界样本判别约束项，使同类边界样本数据在输出空间中尽可能靠近，异类边界样本数据在输出空间中尽可能远离，使分类超平面尽可能穿过两类边界样本数据的中间区域，以提高风险预测模型的泛化性能。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的可以应用风险预测方法、装置和电子设备的示例性***架构；

图2示意性示出了根据本公开实施例的风险预测方法的流程图；

图3示意性示出了根据本公开实施例的风险预测方法的逻辑图；

图4示意性示出了根据本公开实施例的训练风险预测模型方法的流程图；

图5示意性示出了根据本公开实施例的训练数据的示意图；

图6示意性示出了根据本公开实施例的训练风险预测模型的逻辑图；

图7示意性示出了根据本公开实施例的边界样本数据子集合的示意图；

图8示意性示出了根据本公开另一实施例的风险预测方法的流程图；

图9示意性示出了根据本公开实施例的风险预测装置的方框图；以及

图10示意性示出了根据本公开实施例的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多特征。

随着金融行业的发展，法人贷款业务在金融机构中所占的比重越来越大。由于该业务场景的复杂性，高风险客户很难在事前发现，如果不良贷款愈发严重，将会对金融机构造成不利影响，导致金融机构口碑下降，盈利减少等。

为了更好地进行风险预测，可以提取多维度特征，以及基于该多维特征进行风险预测。以法人贷款风险预测为例进行说明，相关技术中进行法人贷款风险预测上仍有不足。例如，经过大量分析和研究，申请人发现相关技术中机器学***面的重要性也不同，如果同等对待所有训练样本，没有对边界样本特有的分布信息进行挖掘和学***面，可能会导致模型达不到预期效果。

大数据技术的发展，使得积累客户相关的特征信息变得越来越容易，法人贷款风险预测涉及的特征类别多，可以构成样本的不同视角，如可以基于基础信息视角、经营信息视角和行为信息视角等进行特征提取。多视角学习技术可以利用样本的不同视角进行建模学习，并对未知样本进行预测。因此应用多视角学习技术进行法人贷款风险预测是一种值得尝试的方案。

在尝试过程中，申请人发现多视角模型虽然多个视角的信息，但是如果采用相关技术中模型训练方式进行训练时，由于多个视角之间的学习过程相对独立，仅在最终的风险预测模型上集成多个视角的子结果，如果某个视角包含的信息不足以提供样本的类别信息，那么该视角的存在反而会降低最终模型的分类效果。

本公开实施例提供的风险预测方法、装置和电子设备，该风险预测方法包括特征获取过程和预测结果输出过程，其中，在特征获取过程中，首先，获取待预测数据，然后，获取待预测数据的风险特征。在完成特征获取过程后进入预测结果输出过程，利用经训练的风险预测模型处理风险特征，得到风险预测结果，风险预测结果包括待预测数据所属的类别。其中，每个类别的样本数据包括边界样本数据，风险预测模型的目标函数包括边界样本判别约束项，边界样本判别约束项使得分别属于不同类别的边界样本数据在输出空间中的第一距离，大于分别属于同类别的边界样本数据在输出空间的第二距离。

本公开提供的基于多视角边界判别约束的风险预测模型，如法人贷款风险预测模型。一方面，在视角内部通过样本的异类近邻信息选择出边界样本集，并通过边界样本集计算两类边界样本集的均值，通过本专利设计的边界样本判别约束项，使同类边界样本在输出空间中尽可能靠近，异类边界样本在输出空间中尽可能远离，使分类超平面尽可能穿过两类边界样本的中间区域，以提高模型的泛化性能。一方面，在基础信息视角、经营信息视角和行为信息视角之间，挖掘边界样本在不同输出空间的一致性，通过本实施例提供的视角间边界样本判别约束项，使同类边界样本的均值在不同视角中的输出尽可能一致，目的是使多个视角之间相互优化，以提高分类边界的准确性。

本公开实施例提供的预测风险的方法、装置和电子设备可用于人工智能领域在风险预测相关方面，也可用于除人工智能领域之外的多种领域，如金融领域，本公开实施例提供的风险预测方法、装置和电子设备的应用领域不做限定。

图1示意性示出了根据本公开实施例的可以应用预测风险的方法、装置和电子设备的示例性***架构。需要注意的是，图1所示仅为可以应用本公开实施例的***架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。

如图1所示，根据该实施例的***架构100可以包括终端设备101、102、103，网络104和服务器105、106、107。网络104可以包括多个网关、路由器、集线器、网线等，用以在终端设备101、102、103和服务器105、106、107之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与其他终端设备和服务器105、106、107进行交互，以接收或发送信息等，如发送风险预测请求、训练模型请求、模型维护请求、接收处理结果等。终端设备101、102、103可以安装有各种通讯客户端应用，例如风险预测类应用、软件开发类应用、银行类应用、政务类应用、监控类应用、网页浏览器应用、搜索类应用、办公类应用、即时通信工具、邮箱客户端、社交平台软件等应用(仅为示例)。例如，用户可以使用终端设备101查看服务器端反馈的风险预测结果和相关处理建议、自动处理结果等。例如，用户可以请求服务器进行模型迭代训练等。

终端设备101、102、103包括但不限于智能手机、虚拟现实设备、增强现实设备、平板电脑、膝上型便携计算机、台式电脑等等。

服务器105、106、107可以接收请求，并对请求进行处理，具体可以为存储服务器、后台管理服务器、服务器集群等。例如，服务器105可以存储有风险预测模型，服务器106可以作为进行模型训练服务器，对模型参数进行优化等，服务器107可以存储业务数据、训练数据库等。

需要说明的是，本公开实施例所提供的预测风险的方法一般可以由服务器执行。相应地，本公开实施例所提供的预测风险的装置一般可以设置于服务器中。本公开实施例所提供的预测风险的方法也可以由能够与终端设备101、102、103和/或服务器105、106、107通信的服务器或服务器集群执行。

应该理解，终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本公开实施例的风险预测方法的流程图。

如图2所示，上述方法包括操作S210～操作S230。

在操作S210，获取待预测数据。该待预测数据可以是多种业务数据。例如，客户办理业务过程中产生的数据。以金融机构为例，待预测数据可以是用户申请办理贷款、申请***、申请信用额度等过程中产生的数据。具体地，待预测数据可以包括经营信息和行为信息等，还可以包括客户属性信息。客户属性信息可以包括以下至少一种：姓名、单位名称、住址、年收入等信息。此外，待预测数据还可以包括统计信息，如用户的历史消费额度、信用信息、消费习惯、消费偏好等。

在操作S220，获取待预测数据的风险特征。

在本实施例中，风险特征可以用于表征被预测对象的潜在风险大小。例如，年收入高的人群针对相同的贷款额，出现违约的风险要低于收入低的人群。

在某些实施例中，获取待预测数据的风险特征包括以下至少一种：对待预测数据中类别数据进行独热编码，得到类别特征。对待预测数据中经营信息和/或行为信息的关联数据进行计算，得到衍生特征。

具体地，在提取风险特征的过程中，对于类别特征，如公司行业门类、公司经济性质等，将其进行独热(One-Hot)编码。

对于衍生指标加工。对经营信息和行为信息的相关原始特征组建衍生特征，如平均值、标准差、最大值和最小值。

例如，对于某个法人，首先，将涉及法人贷款风险预测相关特征分为三类：基础信息、经营信息和行为信息。按类别可确定数据范围，从而确定涉及的数据表。

然后，从数据表取特征，基础信息、经营信息和行为信息。

接着，对类别特征进行转换，加工衍生特征，构造标签。

在操作S230，利用经训练的风险预测模型处理风险特征，得到风险预测结果，风险预测结果包括待预测数据所属的类别。

在本实施例中，每个类别的样本数据包括边界样本数据，风险预测模型的目标函数包括边界样本判别约束项，边界样本判别约束项使得分别属于不同类别的边界样本数据在输出空间中的第一距离，大于分别属于同类别的边界样本数据在输出空间的第二距离。

其中，风险预测模型可以是多种机器学习模型，如神经网络等。风险预测模型可以通过反向传播算法等进行模型训练，以提升预测精准度。

以下对风险预测模型进行示例性说明。

在某些实施例中，类别包括正样本类别和负样本类别。

边界样本判别约束项包括：正样本子约束项、负样本子约束项和交叉项，其中，正样本子约束项的输出和模型处理正样本数据的子结果与模型处理边界正样本子集合的均值的子结果之间的差值相关，负样本子约束项的输出和模型处理负样本数据的子结果与模型处理边界负样本子集合的均值的子结果之间的差值相关，交叉项的输出和模型处理正样本数据的子结果与模型处理负样本数据的子结果的乘积相关。

例如，边界样本判别约束项可以如式(1)所示。

其中，B_class-为负类边界样本集，B_class+为正类边界样本集，μ_class+、μ_class-为两类边界样本集的均值。f(·)为分类器。需要说明的是，上述公式仅为示例性示出，如式中求平方也可以是一次方或三次方等。此外，还有设置系数、常量偏移量等，在此不做限定。

需要说明的是，以上仅示出了边界样本集的处理过程，还可以对非边界样本集进行处理。具体地，每个类别的样本数据还包括非边界样本数据，同一类别中边界样本数据相对于类中心之间的第三距离大于非边界样本数据相对于类中心之间的第四距离。

本公开实施例提供的边界样本判别约束项，使同类边界样本在输出空间中尽可能靠近，异类边界样本在输出空间中尽可能远离，使分类超平面尽可能穿过两类边界样本的中间区域，以提高模型的泛化性能。

在某些实施例中，为了进一步提升模型预测精准度，还可以从多个视角分别进行风险预测，然后基于各视角的预测子结果确定最终的风险预测结果。

例如，获取待预测数据的风险特征包括：获取待预测数据的针对基础信息视角的子特征、获取待预测数据的针对经营信息视角的子特征和获取待预测数据的针对行为信息视角的子特征中至少一种。其中，针对不同视角的子特征的提取过程可以如上所示，在此不再详述。

在某些实施例中，边界样本判别约束项可以包括以下至少一种：针对基础信息视角的正样本子约束项、负样本子约束项和交叉项。针对经营信息视角的正样本子约束项、负样本子约束项和交叉项。针对行为信息视角的正样本子约束项、负样本子约束项和交叉项。

例如，边界样本判别约束项可以如式(2)所示。

其中，v代表视角序号，B_class-为负类边界样本集，B_class+为正类边界样本集，μ_class+，μ_class-为两类边界样本集的均值。f_v(·)为针对第v个视角的子分类器。需要说明的是，上述公式仅为示例性示出，如式中求平方也可以是一次方或三次方等。此外，还有设置系数、常量偏移量等，在此不做限定。

在某些实施例中，风险预测模型的目标函数还可以包括视角间边界样本判别约束项，视角间边界样本判别约束项使得同类别的边界样本的均值在不同视角各自中的输出趋于一致。

本实施例中提供的视角间边界样本判别约束项，使同类边界样本的均值在不同视角中的输出尽可能一致，目的是使多个视角之间相互优化，以提高分类边界的准确性。

具体地，视角间边界样本判别约束项可以包括以下至少一种：针对不同视角的正样本子约束项和负样本子约束项；或者针对不同视角的正样本子约束项和负样本子约束项。

例如，视角间边界样本判别约束项可以如式(3)所示。

其中，v、ω分别代表视角序号。

在某些实施例中，目标函数还可以包括经验损失约束项和正则化约束项。

例如，目标函数的表达式可以如式(4)所示。

L＝R_emp+α·R_bd+β·R_vbd+γ·R_reg 式(4)

其中，R_emp为经验损失，R_reg为正则化项，α，β，γ为超参数，用于调节上述各项权重。例如，R_emp和R_reg分别如式(5)、式(6)所示。

其中，Y为样本的标签，w_v为子模型f_v的特征权重参数，T表示转置。

图3示意性示出了根据本公开实施例的风险预测方法的逻辑图。

如图3所示，首先从数据仓库获取法人贷款风险预测相关的特征信息，如基础信息、经营信息和行为信息。基础信息包括企业所属行业门类、经济性质、信用等级、企业知名度等，经营信息包括企业近一年账户经营性流入流出金额、笔数等，行为信息包括交易金额、交易币种、资金流向等。对样本进行数据预处理和特征工程处理，构建样本的基础信息视角、经营信息视角和行为信息视角。利用待预测数据的特征构造测试样本。将测试样本输入一种基于多视角边界判别约束的法人贷款风险预测模型，得到预测结果。

其中，预处理过程可以如下所示。

首先，可以进行数据选择。例如，正样本可以是优质客户，优质客户的选择标准可以为客户前期的还款记录无问题、经营稳定的公司客户。将涉及法人贷款风险预测相关特征分为三类：基础信息、经营信息和行为信息。按类别可确定数据范围，从而确定涉及的数据表。

然后，进行数据预处理。如数据表中涉及基础信息、经营信息和行为信息的数据列。将不同表中的相关的数据列按照客户标识(id)拼接，组成原始特征。对于有缺失值列，按一定方式补全，如数值特征的缺失值，用列均值补全，非数值特征的缺失值，用“unknown”补全。

以下对风险预测模型的训练过程进行示例性说明。

图4示意性示出了根据本公开实施例的训练风险预测模型方法的流程图。

如图4所示，训练风险预测模型可以包括操作S410～操作S430。

在操作S410，获取训练样本数据集合，训练样本数据集合包括正训练样本数据子集合和负训练样本数据子集合。

首先，需要构造训练样本。

图5示意性示出了根据本公开实施例的训练数据的示意图。

如图5所示，该训练数据可以取自样本集合。样本集合中可以包括负样本子集合和正样本子集合。负样本子集合中可以包括边界负样本子集合和非边界负样本子集合。正样本子集合可以包括边界正样本子集合和非边界正样本子集合。每个样本可以分别从三个视角进行特征提取。

有标签样本的标签为1(ω₁)和-1(ω₂)可以分别代表法人贷款风险客户和无风险客户。每个样本由三个视角组成，分别是基础信息视角、经营信息视角和行为信息视角。

在操作S420，基于样本的异类近邻信息确定正训练样本数据子集合中边界正样本子集合，和/或，基于样本的异类近邻信息确定负训练样本数据子集合中边界负样本子集合。其中，为了便于确定边界样本，可以将与当前类别的任意一个样本最邻近的一个或多个属于其它类别的样本作为边界样本。

在操作S430，将正训练样本数据子集合和/或负训练样本数据子集合输入风险预测模型，调节风险预测模型的参数，直至达到预设迭代次数或者两次迭代过程中目标函数的损失函数差值小于预设阈值。

具体地，利用梯度下降法求解此优化问题，直至达到预设迭代次数或两次损失函数的损失值之差小于预设阈值。例如，采用梯度下降法最小化目标函数，得到每一个视角中的子分类模型，如得到最终的分类模型f^*，算法公式如式(7)所示。

f^*＝arg min_fL(f，X，Y) 式(7)

其中，风险预测模型的目标函数可以如上所示，在此不做限定。通过梯度下降法来对风险预测模型进行训练。

图6示意性示出了根据本公开实施例的训练风险预测模型的逻辑图。

如图6所示，经过数据预处理得到训练样本，由三个视角组成，分别是基础信息视角、经营信息视角和行为信息视角。首先，在视角内部通过样本的异类近邻信息选择出边界样本集，并通过边界样本子集计算两类边界样本集的均值，通过本专利设计的边界样本判别约束项，使同类边界样本在输出空间中尽可能靠近，异类边界样本在输出空间中尽可能远离，使分类超平面尽可能穿过两类边界样本的中间区域，以提高模型的泛化性能。在不同视角之间，挖掘边界样本在不同输出空间的一致性，通过本实施例提供的视角间边界样本判别约束项，使同类边界样本的均值在不同视角中的输出尽可能一致，目的是使多个视角之间相互优化，以提高分类边界的准确性。通过最小化模型的经验损失、边界样本判别约束项和视角间边界样样本判别约束项，得到三个子分类器。最后集成三个子分类器的结果对测试样本进行分类预测。

在某些实施例中，基于样本的异类近邻信息确定正训练样本数据子集合中边界正样本子集合包括：对于任意负样本，将与该负样本近邻的第一指定个数的正类样本加入边界正样本子集合。其中，第一指定个数包括但不限于：1个、2个、3个、4个、5个、7个、8个、10个、11个或更多个。

基于样本的异类近邻信息确定负训练样本数据子集合中边界负样本子集合包括：对于任意正样本，将与该正样本近邻的第二指定个数的负类样本加入边界负样本子集合。其中，第二指定个数包括但不限于：1个、2个、3个、4个、5个、7个、8个、10个、11个或更多个。第一指定个数和第二指定个数可以相同或不同。

图7示意性示出了根据本公开实施例的边界样本数据子集合的示意图。

如图7所示，筛选边界样本集。通过样本的异类近邻信息选择出边界样本集。对于任意正类样本x₊，将其5近邻负类样本加入负类边界样本集B_class-；对于任意正类样本x_-，将其5近邻负类样本加入正类边界样本集B_class+，并通过边界样本子集计算两类边界样本集的均值μ_class+，μ_class-。计算公式如式(8)～式(10)所示。

其中，

表示临近负样本x的5个正样本，

表示临近正样本x的5个负样本。

μ_class+＝Mean(B_class+) 式(9)

μ_class-＝Mean(B_class-) 式(10)

其中，Mean()表示求平均值。

在某些实施例中，在完成模型训练之后，上述方法还可以进一步包括检验操作。

图8示意性示出了根据本公开另一实施例的风险预测方法的流程图。

如图8所示，上述方法在执行操作S530进行模型训练之后，还可以包括操作S810。

在操作S810，利用测试样本集合对经训练的风险预测模型进行测试，得到风险预测结果的测试准确度。

对于测试样本x，输入分类器的判别函数，得到模型的判别结果。

本公开实施例提供的风险预测方法，以基于多视角边界判别约束的法人贷款风险预测为例，其样本由三个视角组成，分别是基础信息视角、经营信息视角和行为信息视角，样本的标签为1和-1分别代表风险用户和一般用户。对于训练样本，首先根据特征类别将特征划为三个子集，基础信息、经营信息和行为信息，分别对应样本的三个视角。模型训练过程中，在视角内部通过样本的异类近邻信息选择出边界样本集，并通过边界样本集计算两类边界样本集的均值，通过本专利设计的边界样本判别约束项，使同类边界样本在输出空间中尽可能靠近，异类边界样本在输出空间中尽可能远离，使分类超平面尽可能穿过两类边界样本的中间区域，以提高模型的泛化性能。在不同视角之间，挖掘边界样本在不同输出空间的一致性，通过本专利设计的视角间边界样本判别约束项，使同类边界样本的均值在不同视角中的输出尽可能一致，目的是使多个视角之间相互优化，以提高分类边界的准确性。通过最小化模型的经验损失、边界样本判别约束项和视角间边界样样本判别约束项，得到三个子分类器。最后集成三个子分类器的结果对测试样本进行分类预测。本专利通过优化模型在视角内部和视角之间的学***面尽可能穿过两类边界样本的中间区域，最终的模型集成三个子分类器的结果能够提高模型的泛化能力。

本公开实施例在风险预测(如法人贷款风险预测)分类的精确率、召回率和综合测评价值上都比传统的机器学习算法效果更好，能更精准地预业务风险情况。例如，将该风险预测模型应用于银行等金融机构，在用户贷款之前进行精准预测，客户经理参考模型预测结果进行相应的处理，减少不良贷款的发放，减少损失，提升机构在同行业的竞争力。

本公开实施例还提供了一种风险预测装置。

图9示意性示出了根据本公开实施例的风险预测装置的方框图。

如图9所示，该风险预测装置900可以包括：数据获取模块910、风险特征获取模块920和风险特征处理模块930。

数据获取模块910用于获取待预测数据。

风险特征获取模块920用于获取待预测数据的风险特征。

风险特征处理模块930用于利用经训练的风险预测模型处理风险特征，得到风险预测结果，风险预测结果包括待预测数据所属的类别。

其中，每个类别的样本数据包括边界样本数据，风险预测模型的目标函数包括边界样本判别约束项，边界样本判别约束项使得分别属于不同类别的边界样本数据在输出空间中的第一距离，大于分别属于同类别的边界样本数据在输出空间的第二距离。

需要说明的是，装置部分实施例中各模块/单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再一一赘述。

根据本公开的实施例的模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，数据获取模块910、风险特征获取模块920和风险特征处理模块930中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，数据获取模块910、风险特征获取模块920和风险特征处理模块930中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，数据获取模块910、风险特征获取模块920和风险特征处理模块930中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图10示意性示出了根据本公开实施例的电子设备的方框图。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，根据本公开实施例的电子设备1000包括处理器1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元，该多个处理单元可以集成在一个处理器中，也可以分布在多个处理器中，在此不做限定。

在RAM 1003中，存储有电子设备1000操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM 1003通过总线1004彼此通讯连接。处理器1001通过执行ROM 1002和/或RAM 1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1000还可以包括输入/输出(I/O)接口1005，输入/输出(I/O)接口1005也连接至总线1004。电子设备1000还可以包括连接至I/O接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本公开实施例的***中限定的上述功能。根据本公开的实施例，上文描述的***、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质。

参考图10所示，该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的；也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行本公开实施例所提供的方法的程序代码，当计算机程序产品在电子设备上运行时，该程序代码用于使电子设备实现本公开实施例所提供的图像模型训练方法或风险预测方法。

在该计算机程序被处理器1001执行时，执行本公开实施例的***/装置中限定的上述功能。根据本公开的实施例，上文描述的***、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1009被下载和安装，和/或从可拆卸介质1011被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种风险预测方法，包括：

获取待预测数据；

获取所述待预测数据的风险特征；以及

利用经训练的风险预测模型处理所述风险特征，得到风险预测结果，所述风险预测结果包括所述待预测数据所属的类别；

其中，每个类别的样本数据包括边界样本数据，所述风险预测模型的目标函数包括边界样本判别约束项，所述边界样本判别约束项使得分别属于不同类别的边界样本数据在输出空间中的第一距离，大于分别属于同类别的边界样本数据在输出空间的第二距离。

2.根据权利要求1所述的方法，其中，所述类别包括正样本类别和负样本类别；以及

所述边界样本判别约束项包括：正样本子约束项、负样本子约束项和交叉项，其中，所述正样本子约束项的输出和模型处理正样本数据的子结果与模型处理边界正样本子集合的均值的子结果之间的差值相关，所述负样本子约束项的输出和模型处理负样本数据的子结果与模型处理边界负样本子集合的均值的子结果之间的差值相关，所述交叉项的输出和模型处理正样本数据的子结果与模型处理负样本数据的子结果的乘积相关。

3.根据权利要求2所述的方法，其中，所述获取所述待预测数据的风险特征包括：获取所述待预测数据的针对基础信息视角的子特征、获取所述待预测数据的针对经营信息视角的子特征和获取所述待预测数据的针对行为信息视角的子特征中至少一种。

4.根据权利要求3所述的方法，其中，所述边界样本判别约束项包括以下至少一种：

针对基础信息视角的正样本子约束项、负样本子约束项和交叉项；

针对经营信息视角的正样本子约束项、负样本子约束项和交叉项；或者

针对行为信息视角的正样本子约束项、负样本子约束项和交叉项。

5.根据权利要求3所述的方法，其中，所述风险预测模型的目标函数还包括视角间边界样本判别约束项，所述视角间边界样本判别约束项使得同类别的边界样本的均值在不同视角各自中的输出趋于一致。

6.根据权利要求5所述的方法，其中，所述视角间边界样本判别约束项包括以下至少一种：

针对不同视角的正样本子约束项；或者

针对不同视角的负样本子约束项。

7.根据权利要求1所述的方法，其中，训练所述风险预测模型包括：

获取训练样本数据集合，所述训练样本数据集合包括正训练样本数据子集合和/或负训练样本数据子集合；

基于样本的异类近邻信息确定所述正训练样本数据子集合中边界正样本子集合，和/或，基于样本的异类近邻信息确定所述负训练样本数据子集合中边界负样本子集合；以及

将所述正训练样本数据子集合和/或所述负训练样本数据子集合输入所述风险预测模型，调节所述风险预测模型的参数，直至达到预设迭代次数或者两次迭代过程中所述目标函数的损失函数差值小于预设阈值。

8.根据权利要求7所述的方法，其中：

所述基于样本的异类近邻信息确定所述正训练样本数据子集合中边界正样本子集合包括：对于任意负样本，将与该负样本近邻的第一指定个数的正类样本加入边界正样本子集合；以及

所述基于样本的异类近邻信息确定所述负训练样本数据子集合中边界负样本子集合包括：对于任意正样本，将与该正样本近邻的第二指定个数的负类样本加入边界负样本子集合。

9.根据权利要求7所述的方法，还包括：

利用测试样本集合对经训练的风险预测模型进行测试，得到风险预测结果的测试准确度。

10.根据权利要求1～9任一项所述的方法，其中，所述获取所述待预测数据的风险特征包括以下至少一种：

对所述待预测数据中类别数据进行独热编码，得到类别特征；或者

对所述待预测数据中经营信息和/或行为信息的关联数据进行计算，得到衍生特征。

11.根据权利要求1～9任一项所述的方法，其中，所述目标函数还包括经验损失约束项和正则化约束项。

12.根据权利要求1～9任一项所述的方法，其中，每个类别的样本数据还包括非边界样本数据，同一类别中边界样本数据相对于类中心之间的第三距离大于非边界样本数据相对于类中心之间的第四距离。

13.一种风险预测装置，包括：

数据获取模块，用于获取待预测数据；

风险特征获取模块，用于获取所述待预测数据的风险特征；以及

风险特征处理模块，用于利用经训练的风险预测模型处理所述风险特征，得到风险预测结果，所述风险预测结果包括所述待预测数据所属的类别；

14.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储可执行指令，所述可执行指令在被所述处理器执行时，实现根据权利要求1～12任一项所述的风险预测方法。

15.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时，实现根据权利要求1～12任一项所述的风险预测方法。