CN113590629A

CN113590629A - 数据处理方法、违约概率模型训练方法及相关设备

Info

Publication number: CN113590629A
Application number: CN202110907382.6A
Authority: CN
Inventors: 葛萌萌; 张贝宁; 李谦; 肖尊雷; 郭剑霓; 蒋宁; 吴海英; 林亚臣
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-02
Anticipated expiration: 2041-08-09
Also published as: CN113590629B

Abstract

本发明提供一种数据处理方法、违约概率模型训练方法及相关设备，数据处理方法，包括：获取数据表在T‑1期的生存概率和数据表在第T期的条件违约概率，数据表在T‑1期的生存概率为数据表在T‑2期的生存概率与数据表在T‑1期的条件违约概率的差，数据表在第T期的条件违约概率为将用户在第T期之前的信用评价信息输入违约概率模型的输出结果，T为大于1的正整数；根据数据表在T‑1期的生存概率和数据表在第T期的条件违约概率确定数据表在第T期的第一违约概率；根据数据表在每一期的第一违约概率，确定数据表在整个生命周期下的违约概率。这样，可以提高数据表在整个生命周期下的违约概率的准确度。

Description

数据处理方法、违约概率模型训练方法及相关设备

技术领域

本发明涉及金融技术领域，尤其涉及到一种数据处理方法、违约概率模型训练方法及相关设备。

背景技术

随着科学技术的发展，许多用户与数据管理机构的交互增加，为了更好的管理用户的数据，数据管理机构通常需要预估用户对应的数据表的违约概率，当前通常采用传统的违约概率模型预估用户的违约概率，但是现有的违约概率模型通常只能预估从首期至截止期这一固定期限内的违约概率，从而使得当前的违约概率模型预估的违约概率的准确度较低。

发明内容

本发明实施例提供一种数据处理方法、违约概率模型训练方法及相关设备，以解决当前的违约概率模型预估的违约概率的准确度较低的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种数据处理方法，包括：

获取数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率，其中，所述数据表在T-1期的生存概率为所述数据表在T-2期的生存概率与所述数据表在T-1期的条件违约概率的差，所述数据表在第T期的条件违约概率为将用户在所述第T期之前的信用评价信息的输入所述违约概率模型处理后得到的输出结果，所述T为大于1的正整数；

根据所述数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率确定所述数据表在第T期的第一违约概率；

根据所述数据表在每一期的第一违约概率，确定所述数据表在整个生命周期下的违约概率。

第二方面，本发明实施例提供了一种违约概率模型训练方法，包括：

确定观察时点；

生成用户在所述观察时点之前的信用评价信息；

获取所述信用评价信息；

对初始模型进行训练迭代，以得到违约概率模型，其中，所述初始模型的输入参数为所述信用评价信息，所述初始模型的输出参数为数据表在所述观察时点之后的条件违约概率。

第三方面，本发明实施例还提供一种数据处理装置，包括：

获取模块，用于获取数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率，其中，所述数据表在T-1期的生存概率为所述数据表在T-2期的生存概率与所述数据表在T-1期的条件违约概率的差，所述数据表在第T期的条件违约概率为：在违约概率模型的输入参数为用户在所述第T期之前的信用评价信息的情况下，所述违约概率模型的输出结果，所述T为大于1的正整数；

第一确定模块，用于根据所述数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率确定所述数据表在第T期的第一违约概率；

第二确定模块，用于根据所述数据表在每一期的第一违约概率，得到所述数据表在整个生命周期下的违约概率。

第四方面，本发明实施例还提供一种违约概率模型训练装置，包括：

确定模块，用于确定观察时点；

生成模块，用于生成用户在所述观察时点之前的信用评价信息；

获取模块，用于获取所述信用评价信息；

训练模块，用于对初始模型进行训练迭代，以得到违约概率模型，其中，所述初始模型的输入参数为所述信用评价信息，所述初始模型的输出参数为数据表在所述观察时点之后的条件违约概率。

第五方面，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述数据处理方法或者违约概率模型训练方法中的步骤。

第六方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述数据处理方法或者违约概率模型训练方法中的步骤。

在本发明实施例中，获取数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率，其中，所述数据表在T-1期的生存概率为所述数据表在T-2期的生存概率与所述数据表在T-1期的条件违约概率的差，所述数据表在第T期的条件违约概率为将用户在所述第T期之前的信用评价信息输入所述违约概率模型处理后的输出结果，所述T为大于1的正整数；根据所述数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率确定所述数据表在第T期的第一违约概率；根据所述数据表在每一期的第一违约概率，确定所述数据表在整个生命周期下的违约概率。

这样，由于数据表在不同期数的生存概率不同，因而在预估数据表在第T期的第一违约概率时，参考了数据表在T-1期的生存概率，从而提高了数据表在第T期的第一违约概率的预估准确度，相应的也可以提高每一期的第一违约概率的预估准确度，进而提高了数据表在整个生命周期下的违约概率的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据处理方法的流程图；

图2是本发明实施例提供的一种违约概率模型训练方法的流程图；

图3是本发明实施例提供的一种数据处理装置的结构示意图；

图4是本发明实施例提供的一种违约概率模型训练装置的结构示意图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的数据处理方法的流程图，如图1所示，包括以下步骤：

步骤101、获取数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率，其中，所述数据表在T-1期的生存概率为所述数据表在T-2期的生存概率与所述数据表在T-1期的条件违约概率的差，所述数据表在第T期的条件违约概率为将用户在所述第T期之前的信用评价信息输入所述违约概率模型处理后得到的输出结果，所述T为大于1的正整数。

其中，上述数据表的具体表现形式在此不做限定，例如：数据表可以为账单或者合同数据表等形式，当数据表为账单时，上述数据表可以被称作为借贷数据表，即为用户与金融机构之间的借贷合同所产生的数据表，金融机构可以被称作为借款方，而用户可以被称作为还款方或者还款人。需要说明的是，信用评价信息的具体内容在此不做限定，作为一种可选的实施方式，所述信用评价信息包括：违约天数、违约期数、提前履约次数和三方数据征信分数中的至少一项。这样，上述变量均与用户的履约能力、履约意愿和信用状态直接相关，通过上述变量可以进一步提高预估的用户出现违约概率的准确度。

当数据表为账单时，上述提前履约次数可以被称作为提前还款次数，即履约能力可以被称作为还款能力，履约意愿可以被称作为还款意愿。当数据表为合同数据表时，上述提前履约次数可以被称作为在合同数据表中约定的履约期之前提前完成合同数据表中规定的事项的次数，履约意愿和履约能力则可以分别表明按时完成合同数据表中规定的事项的意愿和能力。

需要说明的是，当数据表为合同数据表时，违约指的是未按照合同数据表中的约定事项进行执行，违约概率则指的未按照约定事项进行执行的概率，而履约则指的是按照合同数据表中的约定事项进行执行，同理，履约概率则是按照合同数据表中的约定事项进行执行的概率。进而，在本申请实施例中，条件违约概率是指在按照合同数据表中的约定事项进行执行的前提下，得到未按照约定事项进行执行的概率。

步骤102、根据所述数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率确定所述数据表在第T期的第一违约概率。

其中，生存概率可以基于生存分析得到，而生存概率指的是数据表在T-1期仍然存活的可能性的大小，即数据表在从第1期至T-1期之内未被关闭的概率。进而，条件违约概率为在数据表在T-1期仍然存活未被关闭的前提下,所得到的数据表在第T期的违约概率。

数据表在每一期的生存概率与前一期的生存概率存在相关性，即：数据表在T-1期的生存概率为数据表在T-2期的生存概率与数据表在T-1期的条件违约概率的差，而数据表在T-1期的条件违约概率可以为违约概率模型基于用户在第T期之前的信用评价信息输出的结果。

例如：数据表在T-1期的条件违约概率可以用λ(t-1)表示，数据表在第T-1期的第一违约概率可以用Pr(t-1)表示，而Pr(t-1)＝λ(t-1)×PS(t-2)表示，其中PS(t-2)为该数据表生存至第(t-2)期末的概率(也就是数据表在T-2期的生存概率)，而PS(t-2)＝PS(t-3)–Pr(t-2)，且PS(0)＝1。

也就是说，数据表在T期的条件违约概率可以用λ(t)表示，数据表在第T期的第一违约概率可以用Pr(t)表示，而Pr(t)＝λ(t)×PS(t-1)表示，其中PS(t-1)为该数据表生存至第(t-1)期末的概率(也就是数据表在T-1期的生存概率)，而PS(t-1)＝PS(t-2)–Pr(t-1)，且PS(0)＝1，上述T和t均用于表示数据表的期数的编号。需要说明的是，上述第一违约概率也可以被称作为非条件违约概率。

作为一种可选的实施方式，所述根据所述数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率确定所述数据表在第T期的第一违约概率，包括：

将所述数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率的乘积确定为所述数据表在第T期的第一违约概率。

其中，数据表在T-1期的生存概率和数据表在第T期的条件违约概率可以分别参见上述表述。

这样，由于数据表在不同期数的生存概率不同，因而在预估数据表在第T期的第一违约概率时，参考了数据表在T-1期的生存概率，从而提高了数据表在第T期的第一违约概率的预估准确度，进而提高了数据表在整个生命周期下的违约概率的准确度。

步骤103、根据所述数据表在每一期的第一违约概率，确定所述数据表在整个生命周期下的违约概率。

其中，根据上述步骤可以确定数据表在每一期的第一违约概率，然后可以将数据表的每一期的第一违约概率进行相加，从而得到数据表在整个生命周期下的违约概率。

作为一种可选的实施方式，所述根据所述数据表在每一期的第一违约概率，确定所述数据表在整个生命周期下的违约概率，包括：

将所述数据表从第1期的第一违约概率至所述数据表在第T期的第一违约概率累加，确定所述数据表在整个生命周期下的违约概率。

其中，数据表的整个生命周期可以指的是从第1期至第T期，也就是说：数据表从第1期至第T期对应的各个期数的组合可以被称作为数据表的整个生命周期。

需要说明的是，为了得到数据表在整个生命周期下的违约概率，需要根据数据表在每一期的条件违约概率确定数据表在该期的第一违约概率，具体方式可以根据上述实施方式中的相应表述。

本实施方式中，通过将数据表从第1期的第一违约概率至数据表在第T期的第一违约概率累加，从而可以准确且方便的确定数据表在整个生命周期下的违约概率，即使得确定数据表在整个生命周期下的违约概率的方式更加灵活且便捷。

同时，通过将数据表从第1期的第一违约概率至数据表在第T期的第一违约概率累加，从而可以确定数据表在整个生命周期下的违约概率，也就是说从数据表对应的每一期违约概率聚合至该账户(即整个数据表对应的账户)在数据表的整个生命周期下的违约概率，即从数据表维度聚合到账户维度，从而使得更好的预估该账户的违约概率，增强了对违约概率预估方式的多样性。

需要说明的是，在本实施方式的基础上，还可以进行进一步的聚合计算(即进行累加或者加权累加等方式)，从而按照需要的维度进一步的计算风险损失(即违约概率)。

需要说明的是，本实施例中数据表在每一期的违约概率即可以被称作为违约概率，当数据表为账单时，上述违约可以指的是未按照约定还款时间进行还款(或者超过约定还款时间达到目标时长以上，上述目标时长的具体取值在此不做限定，例如可以为180天)，此种情况即可判定数据表在该一期违约或者违约，并可以统计每一期的违约天数(也可以被称作为违约天数)。

作为另一种可选的实施方式，所述根据所述数据表在每一期的第一违约概率，确定所述数据表在整个生命周期下的违约概率，包括：

将所述数据表从第1期的非条件违约至所述数据表在第T期的第一违约概率加权累加，确定所述数据表在整个生命周期下的违约概率。

其中，数据表在每一期可以存在不同的权重，而数据表在每一期的权重的确定方式在此不做限定，例如：当数据表在某一期违约，可以调高数据表在该一期对应的权重；当数据表在某一期未违约，且提前还款，则可以调低数据表在该一期对应的权重。

本实施方式中，由于可以将数据表从第1期的第一违约概率至数据表在第T期的第一违约概率加权累加，从而确定数据表在整个生命周期下的违约概率，即引进了每一期的权重，从而使得可以更加灵活且更加准确的确定数据表在整个生命周期下的违约概率。

另外，作为另一种可选的实施方式，将所述数据表从N期第一违约概率至所述数据表在第T期的第一违约概率累加或者加权累加，从而确定所述数据表在部分生命周期下的违约概率，N为大于1，且小于T的正整数。这样，可以使得方便且准确的确定数据表在部分生命周期下的违约概率。

需要说明的是，由于外界经济环境的变化等目标因素会对用户的履约能力造成影响，因此，为了提高数据表的违约概率的计算的准确度，在预估数据表的违约概率时，需要考虑外界经济环境的变化情况等目标因素的影响。

作为一种可选的实施方式，所述方法还包括：

根据目标因素，修正所述数据表在整个生命周期下的违约概率；

其中，在所述目标因素为第一因素的情况下，调低所述数据表在整个生命周期下的违约概率；

在所述目标因素为第二因素的情况下，调高所述数据表在整个生命周期下的违约概率。

其中，上述外界经济环境的变化情况等目标因素可以理解为本实施方式中的目标因素，而上述目标因素也可以被称作为宏观经济数据，而目标因素为第一因素可以被理解为宏观经济数据处于乐观场景，目标因素为第二因素可以理解为宏观经济数据处于悲观场景，当然，目标因素还可以为第三因素，此时可以理解为宏观经济数据处于中性场景。

其中，当国内生产总值(Gross Domestic Product，GDP)的当季值维持不变和人民币存款准备金率保持不变的情况下，可以确定宏观经济数据的表现为中性场景，此时可以不调整数据表在整个生命周期下的违约概率。

当GDP的当季值升高或者人民币存款准备金率降低，则可以确定宏观经济数据的表现为乐观场景，此时可以调低数据表在整个生命周期下的违约概率。

当GDP的当季值降低或者人民币存款准备金率升高，则可以确定宏观经济数据的表现为悲观场景，此时可以调高数据表在整个生命周期下的违约概率。

本实施方式中，根据宏观经济数据等目标因素，修正数据表在整个生命周期下的违约概率，从而使得修正之后的违约概率更加符合现实，即可以进一步提高得到的违约概率的准确度。

例如，参见表1，表1中表示宏观经济数据的各种表现对应的违约概率的调整值，GDP当季值对应的变量标准差可以为S1d1，而人民币存款准备金率对应的变量标准差可以为S1d2，而乐观场景和悲观场景可以分别在中性场景的标准值上进行加或者减，以得到修正之后的违约概率，其中，表1中的a为自定义系数，为常数，且a的取值可以根据需要进行设置。

表1

需要说明的是，所述数据表在整个生命周期下的违约概率包括修正系数和违约概率值的乘积，违约概率值可以指的是上述实施方式中数据表在整个生命周期下的违约概率。

因此，作为一种可选的实施方式，所述根据宏观经济数据，修正所述数据表在整个生命周期下的违约概率，包括：

根据目标因素，调节所述修正系数，以修正所述数据表在整个生命周期下的违约概率；

其中，在所述目标因素为第一因素的情况下，调低所述修正系数，以调低所述数据表在整个生命周期下的违约概率；

在所述目标因素为第二因素的情况下，调高所述修正系数，以调高所述数据表在整个生命周期下的违约概率。

本实施方式，可以根据宏观经济数据等目标因素，调整修正系数，以达到调整数据表在整个生命周期的违约概率，这样，这样，既使得数据表在整个生命周期下的违约概率的修正方式更加多样化，同样也可以使得最终得到的违约概率的准确度更高。

需要说明的是，由于宏观经济数据具有滞后性(也就是更新速率较慢，不能准确反映当下的宏观经济数据)，因此通常可以采用数据表在第T期之前目标月份或者目标季度的宏观经济数据，其中，目标月份与第T期对应的月份之间相差多个月，目标季度与第T期对应的季度之间相差多个季度，这样，可以使得最终得到的违约概率的准确度更高。

另外，上述修正系数可以通过预先建立前瞻回归模型进行输出得到，并且可以采用前瞻回归模型对修正系数进行调整，具体方式在此不做限定。

需要说明的是，调整修正系数的方式在此不做限定，作为一种可选的实施方式，可以随机调整修正系数的值，当然，作为另一种可选的实施方式，也可以根据在不同场景下输出的违约率与中性场景下的违约率的比值调整修正系数。

表2

当然，作为另一种可选的实施方式，可以根据目标因素，调节所述违约概率值，以修正所述数据表在整个生命周期下的违约概率；

其中，在所述目标因素为第一因素的情况下，调低所述违约概率值；

在所述目标因素为第二因素的情况下，调高所述违约概率值。

本实施方式中，可以通过调整违约概率值，从而修正数据表在整个生命周期下的违约概率，这样，既使得数据表在整个生命周期下的违约概率的修正方式更加多样化，同样也可以使得最终得到的违约概率的准确度更高。

本发明实施例中，通过步骤101至103，由于数据表在不同期数的生存概率不同，因而在预估数据表在第T期的第一违约概率时，参考了数据表在T-1期的生存概率，从而提高了数据表在第T期的第一违约概率的预估准确度，进而提高了数据表在整个生命周期下的违约概率的准确度。

参见图2，图2是本发明实施例提供的一种违约概率模型训练方法的流程图。如图2所示，包括以下步骤：

步骤201、确定观察时点。

其中，在确定观察时点之后，还可以从样本池中获取观察时点之后的训练样本。

其中，观察时点可以指的是整个样本池中数据包括的时间轴上的某一点，并可以根据观察时点获取该观察时点之后的训练样本。

其中，训练样本可以包括从训练样本之后的第一期数据开始一直到目标期数据之间包括的所有数据，上述目标期数据指的是数据表在该期违约时长超过目标时长，目标时长在此不做限定，例如：目标时长可以为80天。

需要说明的是，若观察时点之后并不存在满足要求的目标期数据，则训练样本可以包括从训练样本之后的第一期数据开始一直到最后一期数据之间包括的所有数据。

当然，观察时点的个数在此不做限定，作为一种可选的实施方式，所述观察时点的个数为多个。这样，由于选取了多个观察时点，则可以使得样本更加丰富，从而可以更好的预测数据表处于生命周期的不同阶段用户未来发生违约的概率。

步骤202、生成用户在所述观察时点之前的信用评价信息。

其中，信用评价信息可以参见上述实施例中的相应表述，具体在此不再赘述。需要说明的是，由于信用评价信息为实时更新数据，因此，观察时点不同，则信用评价信息也不同，从而导致预估得到的违约概率也不同。

其中，信用评价信息可以为信用评价模型生成且输出的数据，信用评价模型可以统计每一个用户的每一期数据表，并根据数据表输出该用户的信用评价信息。

步骤203、获取所述信用评价信息。

步骤204、对初始模型进行训练迭代，以得到违约概率模型，其中，所述初始模型的输入参数为所述信用评价信息，所述初始模型的输出参数为数据表在所述观察时点之后的条件违约概率。

其中，训练样本中可以包括多条信用评价信息和多条条件违约概率，且信用评价信息和条件违约概率之间一一对应，这样，可以采用上述训练样本对初始模型进行训练迭代，以最终训练得到违约概率模型，而违约概率模型的输入参数可以为某一个观察时点之前的信用评价信息，违约概率模型的输入参数可以为该观察时点之后的条件违约概率的预估值，该预估值也可以被称作为估计值。

需要说明的是，本实施例中训练得到的违约概率模型可以应用于上述实施例中，即上述实施例中的违约概率模型可以通过本实施例中的训练方法进行训练得到。另外，上述初始模型和违约概率模型也可以被称作为违约概率(Probability of Default，PD)模型。例如：初始模型和违约概率模型可以采用莫顿模型等模型。

以下为违约概率模型的使用方法的相关表述：将用户在第T期之前的信用评价信息输入至违约概率模型中，而违约概率模型则可以输出数据表在第T期的条件违约概率。

例如：当T为10时，可以将数据表在第10期之前的信用评价信息输入至违约概率模型中，而违约概率模型则可以输出数据表在第10期的条件违约概率，需要说明的是，由于信用评价信息具有滞后性，也可以选择与第10期相隔一段时间之前的信用评价信息，如可以选择第7期或者第6期之前的信用评价信息，这样，可以减小信用评价信息的滞后性对预测结果准确度的影响。

需要说明的是，初始模型训练得到违约概率模型的具体方式在此不做限定。

作为一种可选的实施方式，初始模型和违约概率模型的输入参数均为某一个观察时点之前的信用评价信息，而初始模型和违约概率模型的输出参数均可以为该观察时点之后的条件违约概率的预估值，采用训练样本对初始模型进行训练，当初始模型输出的条件违约概率的预估值与实际条件违约概率的差值在预设范围内，则可以将此时的初始模型确定为违约概率模型。

作为另一种可选的实施方式，所述初始模型包括相互连接的第一模型和第二模型，所述第一模型的输入参数为所述信用评价信息，所述第一模型的输出参数为用于表示所述数据表的违约时长是否超过预设时长的结果，所述第二模型的输入参数为用于表示所述数据表的违约时长是否超过预设时长的结果，所述第二模型的输出参数为所述数据表在所述观察时点之后的条件违约概率。

这样，通过分别对第一模型和第二模型进行训练，且第一模型的输出参数和第二模型的输入参数相同，从而增强了第一模型和第二模型在训练过程中的相关性，进而可以提高训练得到的第一模型和第二模型的输出参数的准确度和相关性，即使得最终训练得到的违约概率模型的输出参数的准确度也较高。

其中，第一模型上可以运行信用评价信息和用于表示数据表的违约时长是否超过预设时长的结果之间构成的线性关系的表达式对应的算法，而第二模型可以运行数据表的违约时长是否超过预设时长的结果与数据表在观察时点之后的条件违约概率之间的目标函数对应的算法。

例如，构建初始模型(包括第一模型和第二模型)，且第一模型运行的是逻辑回归算法，且该第一模型对应的函数可以为损失函数，而可以将信用评价信息作为自变量(即第一模型的输入参数，例如：确定为X)，将训练样本包括的用于表示是否超过违约预设时长的结果(即第一模型的输出参数，例如：确定为Y，当违约时长超过预设时长时，Y为1，当违约时长未超过预设时长时，Y为0)，并利用最大似然估计，运用梯度上升算法对损失函数进行迭代，拟合出Y与X之间的线性关系表达式(也就是说损失函数相当于Y与X之间的线性关系表达式)，由此可以在已知X的情况下，使得训练迭代之后的第一模型输出Y的预测值，然后可以将预测值(作为第二模型的输入参数)映射到目标函数(即第二模型运行的函数)中，从而输出每一期发生违约的概率(即第二模型的输出参数)。

其中，上述目标函数的具体类型在此不做限定，例如：上述目标函数可以指的是S型生长曲线(Sigmoid)函数。

需要说明的是，对初始模型的训练迭代过程在此不做限定。

作为一种可选的实施方式，所述对初始模型进行训练迭代，以得到违约概率模型，包括：

对所述初始模型进行第N次训练迭代，所述N为正整数；

当第N次训练迭代后得到的初始模型输出的预测预期概率与实际违约概率的误差在预设范围内时，将所述第N次训练迭代后得到的初始模型确定为违约概率模型。

其中，上述误差可以指的是绝对误差，即预测违约概率与实际违约概率之间的差值。当然，上述误差也可以指的是相对误差，即相对误差＝(预测违约概率-实际违约概率)/实际违约概率。需要说明的是，误差的种类具体在此不做限定。

其中，上述预设范围的具体取值在此不做限定，例如：预设范围可以指的是大于或等于实际违约概率的90％，小于或等于实际违约概率的110％。

本实施方式，在预测违约概率与实际违约概率的误差在预设范围内的情况下，将进行第N次训练迭代后的初始模型确定为违约概率模型，这样，可以使得训练得到的违约概率模型输出违约概率的准确度较高。

另外，作为另一种可选的实施方式，所述对所述初始模型进行训练迭代，以得到违约概率模型，包括：

对所述初始模型进行第N次训练迭代；

在进行第N次训练迭代后的初始模型的目标指标满足预设条件的情况下，将进行第N次训练迭代后的初始模型确定为违约概率模型。

其中，上述目标指标的具体类型在此不做限定，例如：上述目标指标可以包括斯米尔诺夫检验(Kolmogorov-Smirnov，KS)和曲线下面积(Area Under Curve，AUC)等指标中的至少一项。

本实施方式中，在进行第N次训练迭代后的初始模型的目标指标满足预设条件的情况下，将进行第N次训练迭代后的初始模型确定为违约概率模型，这样，同样可以使得训练得到的违约概率模型输出违约概率的准确度较高。

本发明实施例中，通过步骤201至205，由于违约概率模型可以根据信用评价信息预测违约概率，而信用评价信息可以表征履约能力，从而可以使得训练得到的违约概率模型输出违约概率的准确度较高。

参见图3，图3是本发明实施例提供的数据处理装置的结构图，能实现上述实施例中数据处理方法的细节，并达到相同的效果。如图3所示，数据处理装置300，包括：

获取模块301，用于获取数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率，其中，所述数据表在T-1期的生存概率为所述数据表在T-2期的生存概率与所述数据表在T-1期的条件违约概率的差，所述数据表在第T期的条件违约概率为将用户在所述第T期之前的信用评价信息输入所述违约概率模型处理后的输出结果，所述T为大于1的正整数；

第一确定模块302，用于根据所述数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率确定所述数据表在第T期的第一违约概率；

第二确定模块303，用于根据所述数据表在每一期的第一违约概率，得到所述数据表在整个生命周期下的违约概率。

可选地，数据处理装置300，还包括：

修正模块，用于根据目标因素调节修正系数，以修正所述数据表在整个生命周期下的违约概率，其中，所述数据表在整个生命周期下的违约概率包括所述修正系数和违约概率值的乘积；

调低模块，用于在所述目标因素为第一因素的情况下，调低所述修正系数，以调低所述数据表在整个生命周期下的违约概率；

调高模块，用于在所述目标因素为第二因素的情况下，调高所述修正系数，以调高所述数据表在整个生命周期下的违约概率。

可选地，第一确定模块302，还用于将所述数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率的乘积确定为所述数据表在第T期的第一违约概率。

可选地，第二确定模块303，还用于将所述数据表从第1期的非条件违约至所述数据表在第T期的第一违约概率累加，确定所述数据表在整个生命周期下的违约概率。

可选地，所述信用评价信息包括：违约天数、违约期数、提前还款次数和三方数据征信分数中的至少一项。

本发明实施例提供的数据处理装置能够实现图1的方法实施例中数据处理装置实现的各个过程，为避免重复，这里不再赘述。

参见图4，图4是本发明实施例提供的违约概率模型训练装置的结构图，能实现上述实施例中违约概率模型训练方法的细节，并达到相同的效果。如图4所示，违约概率模型训练装置400，包括：

确定模块401，用于确定观察时点；

生成模块402，用于生成用户在所述观察时点之前的信用评价信息；

获取模块403，用于获取所述信用评价信息；

训练模块404，用于对初始模型进行训练迭代，以得到违约概率模型，其中，所述初始模型的输入参数为所述信用评价信息，所述初始模型的输出参数为数据表在所述观察时点之后的条件违约概率。

可选地，所述初始模型包括相互连接的第一模型和第二模型，所述第一模型的输入参数为所述信用评价信息，所述第一模型的输出参数为用于表示所述数据表的违约时长是否超过预设时长的结果，所述第二模型的输入参数为用于表示所述数据表的违约时长是否超过预设时长的结果，所述第二模型的输出参数为所述数据表在所述观察时点之后的条件违约概率。

可选地，训练模块404，包括：

训练子模块，用于对初始模型进行第N次训练迭代，所述N为正整数；

确定子模块，用于当第N次训练迭代后得到的初始模型输出的预测预期概率与实际违约概率的误差在预设范围内时，将所述第N次训练迭代后得到的初始模型确定为违约概率模型。

可选地，所述观察时点的个数为多个。

本发明实施例提供的违约概率模型训练装置能够实现图2的方法实施例中违约概率模型训练装置实现的各个过程，为避免重复，这里不再赘述。

图5为实现本发明各个实施例的另一种电子设备的硬件结构示意图。

该电子设备500包括但不限于：射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、处理器510、以及电源511等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器510，用于：

获取数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率，其中，所述数据表在T-1期的生存概率为所述数据表在T-2期的生存概率与所述数据表在T-1期的条件违约概率的差，所述数据表在第T期的条件违约概率为将用户在所述第T期之前的信用评价信息输入所述违约概率模型处理后得到的输出结果，所述T为大于1的正整数；

可选地，处理器510，还用于：根据目标因素调节修正系数，以修正所述数据表在整个生命周期下的违约概率，其中，所述数据表在整个生命周期下的违约概率包括所述修正系数和违约概率值的乘积；在所述目标因素为第一因素的情况下，调低所述修正系数，以调低所述数据表在整个生命周期下的违约概率；在所述目标因素为第二因素的情况下，调高所述修正系数，以调高所述数据表在整个生命周期下的违约概率。

可选地，处理器510执行的所述根据所述数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率确定所述数据表在第T期的第一违约概率，包括：

可选地，处理器510执行的所述根据所述数据表在每一期的第一违约概率，确定所述数据表在整个生命周期下的违约概率，包括：

将所述数据表从第1期的非条件违约至所述数据表在第T期的第一违约概率累加，确定所述数据表在整个生命周期下的违约概率。

或者，

处理器510，用于：

确定观察时点；

生成用户在所述观察时点之前的信用评价信息；

获取所述信用评价信息；

可选地，处理器510执行的所述对初始模型进行训练迭代，以得到违约概率模型，包括：

对所述初始模型进行第N次训练迭代，所述N为正整数；

可选地，所述观察时点的个数为多个。

应理解的是，本发明实施例中，射频单元501可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器510处理；另外，将上行的数据发送给基站。通常，射频单元501包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元501还可以通过无线通信***与网络和其他设备通信。

电子设备通过网络模块502为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元503可以将射频单元501或网络模块502接收的或者在存储器509中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元503还可以提供与电子设备500执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元503包括扬声器、蜂鸣器以及受话器等。

输入单元504用于接收音频或视频信号。输入单元504可以包括图形处理器(Graphics Processing Unit，GPU)5041和麦克风5042，图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元506上。经图形处理器5041处理后的图像帧可以存储在存储器509(或其它存储介质)中或者经由射频单元501或网络模块502进行发送。麦克风5042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元501发送到移动通信基站的格式输出。

电子设备500还包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板5061的亮度，接近传感器可在电子设备500移动到耳边时，关闭显示面板5061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器505还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元506用于显示由用户输入的信息或提供给用户的信息。显示单元506可包括显示面板5061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板5061。

用户输入单元507可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板5071上或在触控面板5071附近的操作)。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器510，接收处理器510发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5071。除了触控面板5071，用户输入单元507还可以包括其他输入设备5072。具体地，其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板5071可覆盖在显示面板5061上，当触控面板5071检测到在其上或附近的触摸操作后，传送给处理器510以确定触摸事件的类型，随后处理器510根据触摸事件的类型在显示面板5061上提供相应的视觉输出。虽然在图5中，触控面板5071与显示面板5061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板5071与显示面板5061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元508为外部装置与电子设备500连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元508可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备500内的一个或多个元件或者可以用于在电子设备500和外部装置之间传输数据。

存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器509可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器510是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器509内的软件程序和/或模块，以及调用存储在存储器509内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器510可包括一个或多个处理单元；优选的，处理器510可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器510中。

电子设备500还可以包括给各个部件供电的电源511(比如电池)，优选的，电源511可以通过电源管理***与处理器510逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

另外，电子设备500包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器510，存储器509，存储在存储器509上并可在所述处理器510上运行的计算机程序，该计算机程序被处理器510执行时实现上述一种数据处理方法或者一种违约概率模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述一种数据处理方法或者一种违约概率模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据目标因素调节修正系数，以修正所述数据表在整个生命周期下的违约概率，其中，所述数据表在整个生命周期下的违约概率包括所述修正系数和违约概率值的乘积；

在所述目标因素为第一因素的情况下，调低所述修正系数，以调低所述数据表在整个生命周期下的违约概率；

3.根据权利要求1所述的方法，所述根据所述数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率确定所述数据表在第T期的第一违约概率，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述数据表在每一期的第一违约概率，确定所述数据表在整个生命周期下的违约概率，包括：

5.根据权利要求1所述的方法，其特征在于，所述信用评价信息包括：违约信息、提前履约次数和三方数据征信分数中的至少一项。

6.一种违约概率模型训练方法，其特征在于，包括：

确定观察时点；

生成用户在所述观察时点之前的信用评价信息；

获取所述信用评价信息；

7.根据权利要求6所述的方法，其特征在于，所述初始模型包括相互连接的第一模型和第二模型，所述第一模型的输入参数为所述信用评价信息，所述第一模型的输出参数为用于表示所述数据表的违约时长是否超过预设时长的结果，所述第二模型的输入参数为用于表示所述数据表的违约时长是否超过预设时长的结果，所述第二模型的输出参数为所述数据表在所述观察时点之后的条件违约概率。

8.根据权利要求6所述的方法，其特征在于，所述对初始模型进行训练迭代，以得到违约概率模型，包括：

对所述初始模型进行N次训练迭代，所述N为正整数；

当第N次训练迭代后得到的初始模型输出的预测违约概率与实际违约概率的误差在预设范围内时，将所述第N次训练迭代后得到的初始模型确定为违约概率模型。

9.一种数据处理装置，其特征在于，包括：

获取模块，用于获取数据表在T-1期的生存概率和所述数据表在第T期的条件违约概率，其中，所述数据表在T-1期的生存概率数据表为所述数据表在T-2期的生存概率与所述数据表在T-1期的条件违约概率的差，所述数据表在第T期的条件违约概率为：在违约概率模型的输入参数为用户在所述第T期之前的信用评价信息的情况下，所述违约概率模型的输出结果，所述T为大于1的正整数；

10.一种违约概率模型训练装置，其特征在于，包括：

确定模块，用于确定观察时点；

获取模块，用于获取所述信用评价信息；

11.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的数据处理方法中的步骤，或者，所述处理器执行所述计算机程序时实现如权利要求6-8中任一项所述的违约概率模型训练方法中的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的数据处理方法中的步骤，或者，所述计算机程序被处理器执行时实现如权利要求6-8中任一项所述的违约概率模型训练方法中的步骤。