CN115983982A

CN115983982A - 信贷风险识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN115983982A
Application number: CN202310025119.3A
Authority: CN
Inventors: 黄茂湘; 壮青; 陈婷; 吴三平; 庄伟亮; 王永兴; 谭蕴琨; 要卓
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2023-01-09
Filing date: 2023-01-09
Publication date: 2023-04-18

Abstract

本申请提供一种信贷风险识别方法、装置、设备及计算机可读存储介质，信贷风险识别方法包括：获取用户的不同时间节点的历史行为数据，将各时间节点的历史行为数据按时序进行排序拼接，生成用户行为序列；对用户行为序列进行自然语言处理，得到第一行为序列编码向量，并对第一行为序列编码向量进行Embedding稀疏数据处理，得到低维稠密的第二行为序列编码向量；将第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据；根据行为序列表征数据，对用户的信贷风险进行识别。本申请能够提高信贷风险识别的准确率。

Description

信贷风险识别方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及金融科技（Fintech）技术领域，尤其涉及一种信贷风险识别方法、装置、设备及计算机可读存储介质。

背景技术

在金融信贷行业，出资方往往需要评估客户是否会有违约或者欺诈的风险，并基于此来判断是否给客户贷款。

目前，在信贷场景中，对于借款人的行为序列，例如带时间前后关系的账户开立、贷款查询、历史还款记录等信息维度，最常见的信贷风险识别方式是对于每个信息维度，采用固定的时间窗口进行特征提取，将其同样处理为结构化数据，再进行后续的建模处理。也即，目前的信贷风险识别方式是基于单维度的行为时间序列，根据时间窗口和聚合函数衍生成结构化的特征，输入到决策树、集成树的模型中进行不同特征的交互。

然而，目前的该信贷风险识别方式，将借款人的行为序列处理为结构化特征往往会面临以下方面的问题：

一是信息缺失。常用的聚合方式，如平均、比值、标准差等，都是对原始信息进行了聚合处理，这些操作不可避免会损失一部分最原始的数据信息。

二是数据稀疏程度高。在将非结构化的行为序列处理成结构化信息的时候，由于不同借款人的行为序列存在巨大差异，会导致最终的聚合特征有着很高的缺失占比。

三是忽略了行为间的交互作用和行为的顺序信息，比如两个客户都是近6月有3次借款和3次还款，其中一个是先借3笔，然后还上，另外一个是每次还款之前都需要再次借款，从这个维度上考虑，后者的信贷风险明显比前者高。但是如果按照传统的特征衍生方式，将无法识别这两个客户的行为差异。

因此，如何克服上述问题，提高信贷风险识别的准确率，已成为金融信贷领域亟待解决的技术问题。

发明内容

本申请的主要目的在于提供一种信贷风险识别方法、装置、设备及计算机可读存储介质，旨在提高信贷风险识别的准确率。

为实现上述目的，本申请提供一种信贷风险识别方法，所述信贷风险识别方法包括：

获取用户的不同时间节点的历史行为数据，将各时间节点的历史行为数据按时序进行排序拼接，生成用户行为序列，其中，所述历史行为数据为表征历史信贷行为的非结构化数据，所述用户行为序列包括行为特征，以及各所述行为特征的时序信息；

对所述用户行为序列进行自然语言处理，得到第一行为序列编码向量，并对所述第一行为序列编码向量进行Embedding稀疏数据处理，得到低维稠密的第二行为序列编码向量；

将所述第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据；

根据所述行为序列表征数据，对所述用户的信贷风险进行识别。

在一些实施例中，所述对所述用户行为序列进行自然语言处理，得到第一行为序列编码向量的步骤包括：

根据预设的行为动作字典，将所述用户行为序列中的各行为特征映射为行为编码，得到行为编码序列；

将所述行为编码序列进行One-hot编码，得到第一行为序列编码向量。

在一些实施例中，所述根据所述行为序列表征数据，对所述用户的信贷风险进行识别的步骤包括：

获取所述用户的结构表征数据，其中，所述结构表征数据为表征用户属性特征的结构化数据；

通过预设分类算法，将所述结构表征数据和所述行为序列表征数据进行融合，得到融合表征数据，共同训练信贷风险模型；

将所述融合表征数据输入至训练完毕的信贷风险模型，预测得到所述用户的违约概率，并根据所述违约概率，对所述用户的信贷风险进行识别。

在一些实施例中，在所述将所述融合表征数据输入至训练完毕的信贷风险模型的步骤之前，所述方法还包括：

获取行为序列样本数据和结构样本数据，并将所述行为序列样本数据和所述结构样本数据进行融合，得到训练集和验证集，其中，所述行为序列样本数据为表征历史信贷行为的样本数据，所述结构样本数据为表征用户属性特征的样本数据；

基于所述训练集，对信贷风险模型进行迭代训练，并根据所述验证集，对信贷风险模型的效果进行评估，得到判定结果；

若所述判定结果不满足预设标准，则继续对信贷风险模型进行迭代训练；

若所述判定结果满足预设标准，结束迭代训练，得到训练完毕的信贷风险模型。

在一些实施例中，所述将所述行为序列样本数据和所述结构样本数据进行融合，得到训练集和验证集的步骤包括：

通过预设分类算法，将所述行为序列样本数据和所述结构样本数据进行融合，得到融合样本集，其中，所述融合样本集中包括多个训练样本，以及各训练样本关联的违约标签；

将所述融合样本集按照预设比例划分为训练集和验证集。

在一些实施例中，所述预设分类算法为逻辑回归算法。

在一些实施例中，在所述将所述第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据的步骤之前，所述方法还包括：

基于长短期记忆网络LSTM算法训练得到所述循环神经网络模型。

此外，本申请提供一种信贷风险识别装置，所述信贷风险识别装置包括：

行为序列提取模块，用于获取用户的不同时间节点的历史行为数据，将各时间节点的历史行为数据按时序进行排序拼接，生成用户行为序列，其中，所述历史行为数据为表征历史信贷行为的非结构化数据，所述用户行为序列包括行为特征，以及各所述行为特征的时序信息；

非结构化数据处理模块，用于对所述用户行为序列进行自然语言处理，得到第一行为序列编码向量，并对所述第一行为序列编码向量进行Embedding稀疏数据处理，得到低维稠密的第二行为序列编码向量；

行为序列表征模块，用于将所述第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据；

信贷风险识别模块，用于根据所述行为序列表征数据，对所述用户的信贷风险进行识别。

此外，为实现上述目的，本申请还提供一种信贷风险识别设备，信贷风险识别设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的信贷风险识别程序，信贷风险识别程序被处理器执行时实现如上述的信贷风险识别方法的步骤。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有信贷风险识别程序，信贷风险识别程序被处理器执行时实现如上述的信贷风险识别方法的步骤。

本申请的技术方案是通过获取用户的不同时间节点的历史行为数据，将各时间节点的历史行为数据按时序进行排序拼接，生成用户行为序列，其中，该历史行为数据为表征历史信贷行为的非结构化数据，用户行为序列包括行为特征，以及各行为特征的时序信息；对用户行为序列进行自然语言处理，得到第一行为序列编码向量，并对第一行为序列编码向量进行Embedding稀疏数据处理，得到低维稠密的第二行为序列编码向量；将第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据；根据行为序列表征数据，对用户的信贷风险进行识别。

也即，本申请通过提取原始的行为序列，并基于非结构化数据运用自然语言处理、稀疏数据处理等技术对非结构化数据进行转化，作为循环神经网络模型的输入，从而提取出关键行为时间序列的行为序列表征，充分捕捉用户在过去时间的行为顺序关系信息，使得表示用户历史信贷行为的特征粒度更细、信息表达更精准，便于更准确地预测出用户的信贷违约概率，进而达到更优的信贷风险模型预测效果，提高了信贷风险识别的准确率。

目前的信贷风险识别方式是基于单维度的行为时间序列，根据时间窗口和聚合函数衍生成结构化的特征，输入到决策树、集成树的模型中进行不同特征的交互。

相比于该现有技术，本申请通过采集借款人的原始行为数据（即作为非结构化特征的历史行为数据），通过运用自然语言处理、稀疏数据处理等技术对该原始行为数据进行转化，从而避免采用常规的聚合方式（如平均、比值或标准差等）对原始行为信息进行聚合处理，避免损失一部分最原始的数据信息，进而使得表示用户历史信贷行为的特征粒度更细、信息表达更精准，便于更准确地预测出用户的信贷违约概率。也即，本申请是从传统的对行为序列提取结构化特征，转换为直接利用动作文本、动作流水等非结构化数据进行建模，由于利用了更加原始的数据，需要结合自然语言处理技术和特定的模型应用方案，解决非结构化数据处理、稀疏数据转化及深度序列特征挖掘问题，从而捕捉到更隐蔽且有价值的信息，从而达到更好的信贷违约概率预测性能。

另外，本申请通过Embedding稀疏数据处理技术对作为高维稀疏数据的第一行为序列编码向量进行降维处理，得到低维稠密的第二行为序列编码向量，然后再将该第二行为序列编码向量作为后续循环神经网络模型的输入，从而有效降低了数据稀疏程度，进而降低了循环神经网络模型基于行为序列编码向量提取出行为序列表征的运算复杂度，进一步提高了预测出用户的信贷违约概率的准确性。

再者，本申请采用借款人的历史行为的行为动作顺序，创建完整的行为序列，站在客户整体的角度，而不是单个维度，考虑不同行为之间的先后顺序，主要目的是在不损失原始行为序列信息的前提下，进行信贷违约模型的构建，充分捕捉行为间的交互作用和行为的顺序信息，从而达到更好的信贷违约概率预测性能，进而达到提高信贷风险识别的准确率的技术目的。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域默认技术人员而言，在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请信贷风险识别方法第一实施例的实施流程示意图；

图2为本申请一实施例的行为编码映射示意图；

图3为本申请一实施例进行one-hot编码的示意图；

图4为本申请一实施例进行Embedding稀疏数据处理的运算示意图；

图5为本申请实施例的LSTM模型的结构示意图；

图6为本申请实施例的隐藏层向量的逻辑处理示意图；

图7为本申请实施例方案涉及的设备硬件运行环境的信贷风险识别设备结构示意图；

图8为本申请信贷风险识别装置的功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取用户的不同时间节点的历史行为数据，将各时间节点的历史行为数据按时序进行排序拼接，生成用户行为序列，其中，历史行为数据为表征历史信贷行为的非结构化数据，用户行为序列包括行为特征，以及各行为特征的时序信息；对用户行为序列进行自然语言处理，得到第一行为序列编码向量，并对第一行为序列编码向量进行Embedding稀疏数据处理，得到低维稠密的第二行为序列编码向量；将第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据；根据行为序列表征数据，对用户的信贷风险进行识别。

相比于该现有技术，本申请例通过采集借款人的原始行为数据（即作为非结构化特征的历史行为数据），通过运用自然语言处理、稀疏数据处理等技术对该原始行为数据进行转化，从而避免采用常规的聚合方式（如平均、比值或标准差等）对原始行为信息进行聚合处理，避免损失一部分最原始的数据信息，进而使得表示用户历史信贷行为的特征粒度更细、信息表达更精准，便于更准确地预测出用户的信贷违约概率。也即，本申请是从传统的对行为序列提取结构化特征，转换为直接利用动作文本、动作流水等非结构化数据进行建模，由于利用了更加原始的数据，需要结合自然语言处理技术和特定的模型应用方案，解决非结构化数据处理、稀疏数据转化及深度序列特征挖掘问题，从而捕捉到更隐蔽且有价值的信息，从而达到更好的信贷违约概率预测性能。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

结构化数据：结构化数据也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。

非结构化数据：数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片,HTML、各类报表、图像和音频/视频信息等等。在本专利中主要指的是文本型数据。

循环神经网络（RecurrentNeuralNetwork，RNN）：循环神经网络是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（即循环单元）按链式连接的递归神经网络（recursiveneuralnetwork）。

逻辑回归（LogisticRegression）：逻辑回归是一种用于解决二分类问题的广义线性模型（GeneralizedLinearModel），其假设因变量属于伯努利分布，并选取sigmoid函数作为连接函数，是一种有监督的机器学习方法。

One-Hot编码：又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效,One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。

Embedding：用一个低维的向量表示一个词。这个embedding向量的性质是能使距离相近的向量对应的物体有相近的含义。

word2vector（W2V）：每个词表示成一个定长的向量，并使得这些向量能较好地表达不同词之间的相似和类比关系。

信贷风险：信贷风险是指交易对方不履行到期债务的风险。信贷风险又称违约风险，是指借款人、证券发行人或交易对方因种种原因，不愿或无力履行合同条件而构成违约，致使银行、投资者或交易对方遭受损失的可能性。

除非另外定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本实施例中，目前的信贷风险识别方式是基于单维度的行为时间序列，根据时间窗口和聚合函数衍生成结构化的特征，输入到决策树、集成树的模型中进行不同特征的交互。然而，目前的该信贷风险识别方式，将借款人的行为序列处理为结构化特征往往会面临以下方面的问题：

二是数据稀疏程度高。在将非结构化的行为序列处理成结构化信息的时候，由于不同借款人的行为序列存在巨大差异，会导致最终的聚合特征有着很高的缺失占比。例如，仅有1%的借款人在申请贷款的前1个月存在***还款记录，其他借款人则均无该记录，那么在构建借款前1个月***正常还款的特征时，其缺失值占比为99%。

基于此，为了克服上述问题，提高信贷风险识别的准确率，提出本申请信贷风险识别方法的各个实施例。请参照图1，图1为本申请信贷风险识别方法第一实施例的实施步骤流程示意图。在本实施例中，本申请信贷风险识别方法可以包括：

步骤S100，获取用户的不同时间节点的历史行为数据，将各时间节点的历史行为数据按时序进行排序拼接，生成用户行为序列；

在本实施例中，历史行为数据为表征历史信贷行为的非结构化数据，用户行为序列包括行为特征，以及各行为特征的时序信息。其中，该行为特征为用户进行金融信贷交互操作的行为特征，该行为特征包括但不限于账户开立、贷款行为、还款行为等类型。

在一实施例中，该历史行为数据可为用户过去所有时间进行金融信贷交互操作的行为数据。在另一实施例中，该历史行为数据可为用户过去24个月进行金融信贷交互操作的行为数据。在又一实施例中，该历史行为数据可为用户过去36个月进行金融信贷交互操作的行为数据。对此，本实施例不作具体地限定。容易理解的是，用户的历史行为数据中进行账户开立、贷款行为和还款行为等各行为特征往往具有对应的时间节点信息。为进一步辅助理解，列举一示例，例如用户在2021年2月1日查询***，用户在2021年3月5日进行贷记卡开户，在2021年3月15日查询贷款，在2021年4月30日进行贷记卡正常还款（正常还款越多，往往信贷风险越低，而逾期还款越多，往往信贷风险越高），在2021年4月30日进行消费贷正常还款，那么此时这里的行为特征为：查询***对应的时节节点为2021年2月1日，贷记卡开户对应的时节节点为2021年3月5日，查询贷款对应的时节节点为2021年3月15日，贷记卡正常还款对应的时节节点为2021年4月30日，消费贷正常还款对应的时节节点为2021年4月30日。然后将这些历史行为数据按时序进行排序拼接，生成用户行为序列为：查询***、贷记卡开户、查询贷款、贷记卡正常还款且消费贷正常还款。当然，该用户行为序列还可携带时间节点标识，例如可为：20210201查询***、20210305贷记卡开户、20210315查询贷款、20210430贷记卡正常还款且消费贷正常还款。

步骤S200，对所述用户行为序列进行自然语言处理，得到第一行为序列编码向量，并对所述第一行为序列编码向量进行Embedding稀疏数据处理，得到低维稠密的第二行为序列编码向量；

进一步地，在一种可行的实施例中，在上述步骤S200中，对用户行为序列进行自然语言处理，得到第一行为序列编码向量的步骤包括：

步骤A10，根据预设的行为动作字典，将用户行为序列中的各行为特征映射为行为编码，得到行为编码序列；

在本实施例中，根据金融行为的各类动作，设定行为动作字典，将借款人行为序列（即用户行为序列）中各个行为特征与该行为动作字典中的字符编码进行映射。为了助于理解，列举一示例，例如该行为动作字典中“查询”映射的编码为q、“***”映射的编码为“03”，则此时行为特征为“查询***”映射的行为编号为“q-03”。又例如贷记卡映射的编码为“81”，“开户”映射的编码为“k”，则此时行为特征为“贷记卡开户”映射的行为编号为“k-81”。还例如贷记卡映射的编码为“81”，“还款正常”映射的编码为“N”，则此时行为特征为“贷记卡正常还款”映射的行为编号为“81-N”，如图2所示，图2为本申请一实施例的行为编码映射示意图。在图2中，用户行为序列为：查询***、贷记卡开户、查询贷款、贷记卡正常还款且消费贷正常还款......，根据预设的行为动作字典，将该用户行为序列中的各行为特征映射为行为编码，得到行为编码序列为【q-03】，【k-81】，【q-02】，【81-N，91-N】......。

步骤A20，将行为编码序列进行One-hot编码，得到第一行为序列编码向量。

在本实施例中，对于拼接完成的行为编码序列需要进行one-hot编码，one-hot编码是分类变量作为二进制的表示，这首先要将分类值映射到整数值。然后，每个整数值表表示为二进制向量，向量中该行为特征为1，其余为0。为了助于理解，列举一示例，比如行为动作字典中所有动作一共120维，对于该用户行为序列A：“查询-***”、“开立-经营贷”和“***-M1”映射为行为编码，也就是说，将组成的行为序列编码，将其转化为3*120维的向量表示。如图3所示，在图3中，用户行为序列A经过One-hot编码得到的第一行为序列编码向量为【1，0，0，......】、【0，1，0，......】、【0，0，1，......】。

本实施例通过根据预设的行为动作字典，将用户行为序列中的各行为特征映射为行为编码，得到行为编码序列，并通过将该行为编码序列进行One-hot编码，得到第一行为序列编码向量，从而实现对用户行为序列（非结构化数据）进行有效的自然语言处理。

本实施例在对用户行为序列进行自然语言处理，得到第一行为序列编码向量后，还对该第一行为序列编码向量进行Embedding稀疏数据处理，得到低维稠密的第二行为序列编码向量。具体地，经过上述自然语言处理后，将作为非结构化数据的用户行为序列转化为作为向量数据的第一行为序列编码向量，但因为第一行为序列编码向量的维度过高导致数据稀疏，因此本实施例采取Embedding稀疏数据处理技术对作为高维稀疏数据的第一行为序列编码向量进行降维处理，得到低维稠密的第二行为序列编码向量，如图4所示，图4为本申请一实施例进行Embedding稀疏数据处理的运算示意图。然后再将该第二行为序列编码向量作为后续循环神经网络模型的输入，从而降低循环神经网络模型基于行为序列编码向量提取出行为序列表征的运算复杂度，进而提高了信贷风险识别的准确率。

步骤S200之后，执行步骤S300，将所述第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据；

在本实施例中，该循环神经网络模型可采用的是LSTM（Long Short-Term Memory，长短期记忆网络）方法进行构建，可同样替换成GRU（gated recurrent neural network，门控循环神经网络）、双向循环神经网络或是其他常规循环神经网络方法。本实施例对此不作具体地限定。

本实施例通过将第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据，从而基于深度学习技术实现提取出历史信贷交互行为的行为序列表征。

在一种可能的实施方式中，在将第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据的步骤之前，方法还包括：

步骤B10，基于长短期记忆网络LSTM（Long Short-Term Memory，长短期记忆网络）算法训练得到循环神经网络模型。

在本实施例中，基于长短期记忆网络LSTM算法训练得到循环神经网络模型为长短期记忆网络模型，主要通过三个阶段实现对第二行为序列编码向量进行关键信息抽取：

（1）遗忘阶段：在用户的行为序列t时刻，LSTM模型会选择性遗忘时刻所传来的非重要信息；

（2）记忆阶段：LSTM模型会选择性地记忆t时刻的重要行为信息输入；

接着，LSTM模型将以上两个阶段的结果相加后，传递给t+1时刻；

（3）输出阶段：LSTM模型会输出当前t时刻的结果。

运用以上三个阶段，LSTM模型从用户行为序列的初时刻至末时刻，都会记忆所有历史重要信息并输出，从而解码得到行为序列表征数据。

在本实施例中，因为借贷行为受过去行为的影响，本申请采用的LSTM模型（即基于长短期记忆网络LSTM算法而训练得到的循环神经网络模型）是一种经典的循环神经网络模型，其优点在于能缓解梯度消失的问题，并具有长期记忆的能力，可以捕捉过去行为对当下行为的影响，对借款人未来的违约概率进行预测。LSTM神经网络的定义如下：

其中，it，ft，ot 分别代表第t个时刻的输入、遗忘和输出门；xt和ht代表输入值与隐输出向量；ct是记忆单元向量；⊙代表哈达玛积；W*表示连接权重；b*表示对应的偏置；表示激活函数，下标为i，f，o表示sigmoid激活函数，c和h表示tanh激活函数。在LSTM模型的训练过程中，在每次迭代时计算反向传播误差，并以此更新各个权重，该LSTM模型的结构示意图如图5所示。

本实施例基于第二行为序列编码向量，训练一个LSTM模型，在迭代收敛后得到最终的LSTM模型与其对每个借款人的预测结果（该预测结果为用于对信贷违约概率进行预测的行为序列表征数据）。

具体地，基于构建好的LSTM循环神经网络模型，可以采用如下思路进行结构化表征的提取：

（1）每个借款人是否出现违约的预测值；

（2）每个借款人LSTM模型隐藏层向量的平均值（如图6所示）；

（3）每个借款人LSTM模型最后一个隐输出向量。

步骤S300之后，执行步骤S400，据所述行为序列表征数据，对所述用户的信贷风险进行识别。

示例性地，根据行为序列表征数据，对用户的信贷风险进行识别的步骤包括：

步骤C10，将行为序列表征数据输入至训练完毕的信贷风险预测模型，预测得到用户的违约概率，并根据违约概率，对用户的信贷风险进行识别。

本申请实施例的技术方案是通过获取用户的不同时间节点的历史行为数据，将各时间节点的历史行为数据按时序进行排序拼接，生成用户行为序列，其中，该历史行为数据为表征历史信贷行为的非结构化数据，用户行为序列包括行为特征，以及各行为特征的时序信息；对用户行为序列进行自然语言处理，得到第一行为序列编码向量，并对第一行为序列编码向量进行Embedding稀疏数据处理，得到低维稠密的第二行为序列编码向量；将第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据；根据行为序列表征数据，对用户的信贷风险进行识别。

也即，本申请实施例通过提取原始的行为序列，并基于非结构化数据运用自然语言处理、稀疏数据处理等技术对非结构化数据进行转化，作为循环神经网络模型的输入，从而提取出关键行为时间序列的行为序列表征，充分捕捉用户在过去时间的行为顺序关系信息，使得表示用户历史信贷行为的特征粒度更细、信息表达更精准，便于更准确地预测出用户的信贷违约概率，进而达到更优的信贷风险模型预测效果，提高了信贷风险识别的准确率。

相比于该现有技术，本申请例通过采集借款人的原始行为数据（即作为非结构化特征的历史行为数据），通过运用自然语言处理、稀疏数据处理等技术对该原始行为数据进行转化，从而避免采用常规的聚合方式（如平均、比值或标准差等）对原始行为信息进行聚合处理，避免损失一部分最原始的数据信息，进而使得表示用户历史信贷行为的特征粒度更细、信息表达更精准，便于更准确地预测出用户的信贷违约概率。也即，本实施例是从传统的对行为序列提取结构化特征，转换为直接利用动作文本、动作流水等非结构化数据进行建模，由于利用了更加原始的数据，需要结合自然语言处理技术和特定的模型应用方案，解决非结构化数据处理、稀疏数据转化及深度序列特征挖掘问题，从而捕捉到更隐蔽且有价值的信息，从而达到更好的信贷违约概率预测性能。

另外，本实施例通过Embedding稀疏数据处理技术对作为高维稀疏数据的第一行为序列编码向量进行降维处理，得到低维稠密的第二行为序列编码向量，然后再将该第二行为序列编码向量作为后续循环神经网络模型的输入，从而有效降低了数据稀疏程度，进而降低了循环神经网络模型基于行为序列编码向量提取出行为序列表征的运算复杂度，进一步提高了预测出用户的信贷违约概率的准确性。

再者，本实施例采用借款人的历史行为的行为动作顺序，创建完整的行为序列，站在客户整体的角度，而不是单个维度，考虑不同行为之间的先后顺序，主要目的是在不损失原始行为序列信息的前提下，进行信贷违约模型的构建，充分捕捉行为间的交互作用和行为的顺序信息，从而达到更好的信贷违约概率预测性能，进而达到提高信贷风险识别的准确率的技术目的。

进一步地，基于上述本申请信贷风险识别方法的第一实施例，提出本申请信贷风险识别方法的第二实施例。

在本申请信贷风险识别方法的第二实施例中，上述的步骤S400，根据行为序列表征数据，对用户的信贷风险进行识别的步骤包括：

步骤C10，获取用户的结构表征数据；

在本实施例中，该结构表征数据为表征用户属性特征的结构化数据，例如基础的年龄、性别信息、当前时点信贷账户状态等。

步骤C20，通过预设分类算法，将结构表征数据和行为序列表征数据进行融合，得到融合表征数据，共同训练信贷风险模型；

步骤C30，将融合表征数据输入至训练完毕的信贷风险模型，预测得到用户的违约概率，并根据违约概率，对用户的信贷风险进行识别。

示例性的，该预设分类算法可为逻辑回归算法。当然，也可替换成其他的分类算法，例如NBC（Naive Bayesian Classifier，朴素贝叶斯分类）算法、ID3（IterativeDichotomiser 3迭代二叉树3代）决策树算法、C4.5决策树算法、C5.0决策树算法、SVM（Support Vector Machine，支持向量机）算法、KNN（，K最近邻近）算法、ANN（Artificial Neural Network，人工神经网络）算法等，本实施例对此不作具体地限定。

本实施例通过获取用户的结构表征数据，通过预设分类算法，将结构表征数据和行为序列表征数据进行融合，得到融合表征数据，共同训练信贷风险模型；将融合表征数据输入至训练完毕的信贷风险模型，预测得到用户的违约概率，并根据违约概率，对用户的信贷风险进行识别，从而在进行关键行为序列信息（即行为序列表征数据）的提取后，结合借款人非时序的结构化数据（即结构表征数据）进行联合建模，以期达到更优的模型效果，通过在采用行为序列信息结合结构化数据一起建模，提高了对数据的利用程度，使得模型的信贷违约概率预测性能更好，进一步提高了信贷风险识别的准确率。

进一步地，在一种可行的实施例中，在上述的步骤C30，将融合表征数据输入至训练完毕的信贷风险模型，预测得到用户的违约概率的步骤之前，方法还包括：

步骤D10，获取行为序列样本数据和结构样本数据，并将行为序列样本数据和结构样本数据进行融合，得到训练集和验证集，其中，行为序列样本数据为表征历史信贷行为的样本数据，结构样本数据为表征用户属性特征的样本数据；

在本实施例中，行为序列样本数据和结构样本数据进而通过本机构平台或者第三方机构平台获取。

步骤D20，基于训练集，对信贷风险模型进行迭代训练，并根据验证集，对信贷风险模型的效果进行评估，得到判定结果；

步骤D30，若判定结果不满足预设标准，则继续对信贷风险模型进行迭代训练；

步骤D40，若判定结果满足预设标准，结束迭代训练，得到训练完毕的信贷风险模型。

本实施例通过获取行为序列样本数据和结构样本数据，并将行为序列样本数据和结构样本数据进行融合，得到训练集和验证集，其中，行为序列样本数据为表征历史信贷行为的样本数据，结构样本数据为表征用户属性特征的样本数据，基于训练集，对信贷风险模型进行迭代训练，并根据验证集，对信贷风险模型的效果进行评估，从而有效确保了信贷风险模型的质量。

进一步地，在一种可行的实施例中，在上述的步骤的D10中，将行为序列样本数据和结构样本数据进行融合，得到训练集和验证集的步骤包括：

步骤E10，通过预设分类算法，将行为序列样本数据和结构样本数据进行融合，得到融合样本集，其中，融合样本集中包括多个训练样本，以及各训练样本特征关联的违约标签；

具体地，融合样本集为具有违约标签的训练样本，且违约标签为已知是否违约，具体可以是：若训练样本A违约，则训练样本A关联的违约标签的值为1；若训练样本A不违约，则违约标签的值为0。

步骤E20，将融合样本集按照预设比例划分为训练集和验证集。

在本实施例中，按照预设比例（比如7:3的比例）将融合样本集划分为训练集和验证集，以便于后续模型进行训练使用。

示例性的，预设分类算法为逻辑回归算法。当然，也可替换成其他的分类算法，例如NBC（Naive Bayesian Classifier，朴素贝叶斯分类）算法、ID3（IterativeDichotomiser 3迭代二叉树3代）决策树算法、C4 .5决策树算法、C5 .0决策树算法、SVM（Support Vector Machine，支持向量机）算法、KNN（，K最近邻近）算法、ANN（Artificial Neural Network，人工神经网络）算法等，本实施例对此不作具体地限定。

本申请实施例通过提取原始的行为序列，并基于非结构化数据运用自然语言处理、稀疏数据处理等技术对非结构化数据进行转化，作为循环神经网络模型的输入，从而提取出关键行为时间序列的行为序列表征，充分捕捉用户在过去时间的行为顺序关系信息，使得表示用户历史信贷行为的特征粒度更细、信息表达更精准，便于更准确地预测出用户的信贷违约概率，达到更优的信贷风险模型预测效果，进而提高了信贷风险识别的准确率。

此外，请参照图7，图7为本申请实施例方案涉及的设备硬件运行环境的信贷风险识别设备结构示意图。

如图7所示，该信贷风险识别设备可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地，该信贷风险识别设备还可以包括矩形用户接口、网络接口、相机、RF（Radio Frequency，射频）电路，传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏（Display）、输入子模块比如键盘（Keyboard），可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可包括标准的有线接口、无线接口（如WIFI接口）。

本领域技术人员可以理解，图7中示出的信贷风险识别设备结构并不构成对信贷风险识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图7所示，作为一种计算机存储介质的存储器1005中可以包括操作装置、网络通信模块以及信贷风险识别程序。操作装置是管理和控制信贷风险识别设备硬件和软件资源的程序，支持信贷风险识别程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与信贷风险识别装置中其它硬件和软件之间通信。

在图7所示的信贷风险识别设备中，处理器1001用于执行存储器1005中存储的信贷风险识别程序，并执行以下步骤：

获取用户的不同时间节点的历史行为数据，将各时间节点的历史行为数据按时序进行排序拼接，生成用户行为序列，其中，历史行为数据为表征历史信贷行为的非结构化数据，用户行为序列包括行为特征，以及各行为特征的时序信息；

对用户行为序列进行自然语言处理，得到第一行为序列编码向量，并对第一行为序列编码向量进行Embedding稀疏数据处理，得到低维稠密的第二行为序列编码向量；

将第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据；

根据行为序列表征数据，对用户的信贷风险进行识别。

在一些可行的实施例中，处理器1001还用于执行存储器1005中存储的信贷风险识别程序，并执行以下步骤：

根据预设的行为动作字典，将用户行为序列中的各行为特征映射为行为编码，得到行为编码序列；

将行为编码序列进行One-hot编码，得到第一行为序列编码向量。

获取用户的结构表征数据，其中，结构表征数据为表征用户属性特征的结构化数据；

通过预设分类算法，将结构表征数据和行为序列表征数据进行融合，得到融合表征数据，共同训练信贷风险模型；

将融合表征数据输入至训练完毕的信贷风险模型，预测得到用户的违约概率，并根据违约概率，对用户的信贷风险进行识别。

在一些可行的实施例中，处理器1001还用于执行存储器1005中存储的信贷风险识别程序，还执行如下步骤：

获取行为序列样本数据和结构样本数据，并将行为序列样本数据和结构样本数据进行融合，得到训练集和验证集，其中，行为序列样本数据为表征历史信贷行为的样本数据，结构样本数据为表征用户属性特征的样本数据；

基于训练集，对信贷风险模型进行迭代训练，并根据验证集，对信贷风险模型的效果进行评估，得到判定结果；

若判定结果不满足预设标准，则继续对信贷风险模型进行迭代训练；

若判定结果满足预设标准，结束迭代训练，得到训练完毕的信贷风险模型。

通过预设分类算法，将行为序列样本数据和结构样本数据进行融合，得到融合样本集，其中，融合样本集中包括多个训练样本，以及各训练样本关联的违约标签；

将融合样本集按照预设比例划分为训练集和验证集。

基于长短期记忆网络LSTM算法训练得到循环神经网络模型。

本申请信贷风险识别设备具体实施方式与上述信贷风险识别方法各实施例基本相同，在此不再赘述。

此外，请参照图8，图8为本申请信贷风险识别装置的功能模块示意图，本申请还提供一种信贷风险识别装置，信贷风险识别装置包括：

行为序列提取模块10，用于获取用户的不同时间节点的历史行为数据，将各时间节点的历史行为数据按时序进行排序拼接，生成用户行为序列，其中，历史行为数据为表征历史信贷行为的非结构化数据，用户行为序列包括行为特征，以及各行为特征的时序信息；

非结构化数据处理模块20，用于对用户行为序列进行自然语言处理，得到第一行为序列编码向量，并对第一行为序列编码向量进行Embedding稀疏数据处理，得到低维稠密的第二行为序列编码向量；

行为序列表征模块30，用于将第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据；

信贷风险识别模块40，用于根据行为序列表征数据，对用户的信贷风险进行识别。

可选地，非结构化数据处理模块20，还用于：

可选地，信贷风险识别模块40，还用于：

通过预设分类算法，将结构表征数据和行为序列表征数据进行融合额，得到融合表征数据，共同训练信贷风险模型；

可选地，信贷风险识别装置还包括训练模块（未图示），训练模块用于：

可选地，训练模块还用于：

将融合样本集按照预设比例划分为训练集和验证集。

可选地，训练模块还用于：

基于长短期记忆网络LSTM算法训练得到循环神经网络模型。

本申请信贷风险识别装置的具体实施方式与上述信贷风险识别方法各实施例基本相同，在此不再赘述。

此外，本申请还提出一种计算机可读存储介质，该存储介质上存储有信贷风险识别的程序，该信贷风险识别程序被处理器执行时实现如上本申请信贷风险识别方法的步骤。

本申请计算机存储介质的具体实施例与上述信贷风险识别方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，空调器，或者网络设备等）执行本申请各个实施例的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种信贷风险识别方法，其特征在于，所述信贷风险识别方法包括：

2.如权利要求1所述的信贷风险识别方法，其特征在于，所述对所述用户行为序列进行自然语言处理，得到第一行为序列编码向量的步骤包括：

3.如权利要求1所述的信贷风险识别方法，其特征在于，所述根据所述行为序列表征数据，对所述用户的信贷风险进行识别的步骤包括：

4.如权利要求3所述的信贷风险识别方法，其特征在于，在所述将所述融合表征数据输入至训练完毕的信贷风险模型的步骤之前，所述方法还包括：

5.如权利要求4所述的信贷风险识别方法，其特征在于，所述将所述行为序列样本数据和所述结构样本数据进行融合，得到训练集和验证集的步骤包括：

将所述融合样本集按照预设比例划分为训练集和验证集。

6.如权利要求3至5中任一项所述的信贷风险识别方法，其特征在于，所述预设分类算法为逻辑回归算法。

7.如权利要求1所述的信贷风险识别方法，其特征在于，在所述将所述第二行为序列编码向量输入至预先构建的循环神经网络模型，解码得到行为序列表征数据的步骤之前，所述方法还包括：

8.一种信贷风险识别装置，其特征在于，所述信贷风险识别装置包括：

9.一种信贷风险识别设备，其特征在于，所述信贷风险识别设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信贷风险识别程序，所述信贷风险识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的信贷风险识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有信贷风险识别程序，所述信贷风险识别程序被处理器执行时实现如权利要求1至7中任一项所述的信贷风险识别方法的步骤。