CN111046076A

CN111046076A - 一种银行用户行为数据的高效精准分析方法

Info

Publication number: CN111046076A
Application number: CN201911235927.2A
Authority: CN
Inventors: 苏钰
Original assignee: Shenzhen Suoxinda Data Technology Co Ltd
Current assignee: Shenzhen Suoxinda Data Technology Co Ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-21

Abstract

一种银行用户行为数据的高效精准分析方法，涉及银行用户行为数据处理技术领域，解决现有银行***中的用户行为分析方法存在数据处理效率低，误差大，可靠性不佳等技术不足，步骤为：步骤1，数据清洗；步骤2，构建输入矩阵；步骤3，深度因子分解机建模，基于模型设置构建模型；步骤4，进行个性化推荐，将用户行为数据与模型拟合以得到各个用户对应的兴趣产品排名；模型拟合完成后预测用户对不同产品点击率，然后根据点击率进行排序，选出点击率较高的前n个产品以得到不同用户对不同产品的偏好信息。能获得用户与产品之间的二维交互关系，还可以获得其他信息之间的多维交互关系，点击率的预测准确度比现有技术得到了极大的增强。

Description

一种银行用户行为数据的高效精准分析方法

技术领域

本申请涉及银行用户行为数据处理技术领域，特别涉及一种银行用户行为数据的高效精准分析方法改进方面。

背景技术

随着大数据时代的到来，个性化推荐在当今社会显得越来越重要，其在银行金融行业有着巨大的作用以及发展潜力。而个性化推荐的关键在于可以对银行用户数据实现高效精准的分析。

然而银行现有的用户行为分析方法存在数据处理效率低，误差大，可靠性不佳等技术不足，造成该问题的根本原因在于银行现用于用户行为分析的方法较为简单，因而无法很好地挖掘用户与产品之间的交互关系，进而给出合适的分析结果。

银行现有的用户行为分析方法包括协同过滤，因子分解机，深度学习等方法，这些方法都存在一定的问题，例如协同过滤方法只能通过相似性确定推荐需求，因子分解机方法无法抓取高维交互作用，深度学习方法则对低维交互抓取效果不佳。

发明内容

综上所述，本发明的目的在于解决现有银行***中的用户行为分析方法存在数据处理效率低，误差大，可靠性不佳等技术不足，而提出一种银行用户行为数据的高效精准分析方法。

为解决本发明所提出的技术不足，采用的技术方案为：

一种银行用户行为数据的高效精准分析方法，其特征在于所述方法步骤为：

步骤1，数据清洗，对原始数据中的重复数据、异常数据和无效数据进行清除，纠正错误数据，根据分析数据分布情况，使用中位数或者平均值填补缺失值；

步骤2，构建输入矩阵，将原数据按照域分割转化为新的输入向量；

步骤3，深度因子分解机建模，基于模型设置构建模型；

步骤4，进行个性化推荐，将用户行为数据与模型拟合以得到各个用户对应的兴趣产品排名；模型拟合完成后预测用户对不同产品点击率，然后根据点击率进行排序，选出点击率较高的前n个产品以得到不同用户对不同产品的偏好信息。

作为对本发明技术方案进一步限定的技术方案包括有：

步骤2中将原数据按照域分割转化为新的输入向量的方法步骤包括：对数据特征以域为单位，将每个分类变量转化为独热编码的向量，连续变量用自身数值表示；将每个实例转化为(x,y)的形式；

其中x表示为：

其中x是一个向量，

表示原数据中的第j个域；

其中y表示为：

用于评估一个用户对特定产品点击的概率。

步骤3中的基于模型设置构建模型的模型包括：构建一个深度因子分解机模型，其包含3个部分，分别是：嵌入层部分、因子分解机部分以及深度网络部分。

所述的深度因子分解机模型的构成为：

其中

是预测的点击率，y_FM是因子分解机部分的输出，y_DNN是深度网络部分的输出。

所述的嵌入层部分的构成为：

嵌入层连接输入向量，其表示如下：

a^|0|＝[e₁,e₂,...,e_m]

其中e_i时候第i个域的嵌入，m是域的数量，之后a^||将会传入后续网络结构中。

所述的因子分解机部分的构成包括：

一个加数单元和一个内积单元，因子分解机部分的输出为y_FM，表示如下：

其中w∈R^d，并且V_i∈R^k，加数单元<w,x>反应一阶特征的重要性，内积单元反应二阶特征的交互效应。

所述的深度网络部分的详细构成包括：

全连接层组成的深度网络，其前馈过程为：

a^|l+1|＝σ(W^|l|a^|l|+b^|l|)

其中l是层的深度，σ是一个激活函数；a^|l|,W^|l|,b^|l|分别是第l层的输出，模型权重和偏置值；

最终输出为y_DNN，其表达如下：

y_DNN＝σ(W^|H|+1·a^H+b^|H|+1)

其中|H|是隐藏层的数目，σ是激活函数。

所述的因子分解机部分的表达方程为：

所述的拟合模型的方法为:通过反向传播和求导链式法则，以修正模型参数以实现模型拟合。

采用孤立森林方法进行异常值检测，并清除重复数据、异常数据和无效数据，纠正错误数据。

本发明的有益效果为：本发明提供的银行用户行为数据的高效精准分析方法与现有技术相比具有以下优点：

通过结合深度学习和因子分解机模型，使得该方法既能获得用户与产品之间的二维交互关系，还可以获得其他信息之间的多维交互关系，以此方法，点击率的预测准确度比现有技术得到了极大的增强，本发明为了克服现有银行***的用户行为数据分析方法效果不佳的问题，且对输入信息没有限制。

附图说明

图1所示为本发明一实施例提供的银行用户行为数据的高效精准分析方法的流程图。

图2所示为深度因子分解机的模型示意图。

具体实施方式

为了更进一步地对本发明的特征和优点能更明显易懂，下文特举较佳实施例，并配合附图，作详细说明如下：

如图1所示，本实施例提供的银行用户行为数据的高效精准分析方法包括：

步骤1，对数据进行数据清洗；对原始数据中的重复数据、异常数据和无效数据进行清除，纠正错误数据，根据分析数据分布情况，使用中位数或者平均值填补缺失值；具体方法可以是：对原始数据通过孤立森林方法进行异常值检测，并清除重复数据、异常数据和无效数据，纠正错误数据；根据分析数据分布情况，使用中位数或者平均值对缺失值进行填补。

步骤2，构建输入矩阵，将原数据按照域分割转化为新的输入向量；即将输入数据实例转化为(x,y)的形式；其中对于x，其中对数据特征以域为单位，将每个分类变量转化为独热编码的向量，连续变量用自身数值表示，最终表示为：

公式一：

其中x是一个向量，

表示原数据中的第j个域。x通常高维且稀疏。

其中y表示为：

公式二：

其中在用户行为数据分析项目中，

用于评估一个用户对特定产品点击的概率。

步骤3，深度因子分解机建模，基于模型设置构建模型；

深度因子分解机建模，基于模型设置构建模型，深度因子分解机模型可表示为：

公式三：

其中

其中嵌入层部分连接输入向量，其公式可表示为：

公式四：

a^|0|＝[e₁,e₂,...,e_m]

其中e_i时候第i个域的嵌入，即将各个特征交互后的结果，m是域的数量，之后a^|0|将会传入后续网络结构中。

其中因子分解机部分，包括一个加数单元和一个内积单元，因子分解机部分的输出为y_FM，公式可表示为：

公式五：

其中w∈R^d，并且V_i∈R^k，加数单元<w,x>反应一阶特征的重要性，内积单元反应二阶特征的交互效应，即既能反应用户和产品本身的特征，同时也能获取其相关特征。

上述因子分解机部分的表达方程可以转化为：

公式六：

通过上述数学变换，将计算复杂度从O(kn²)降低到O(kn)，使其计算速度加快。

其中深度网络部分是由全连接层组成的深度网络，其前馈过程公式可表达为：

公式七：

a^|l+1|＝σ(W^|l|a^|l|+b^|l|)

其中l是层的深度，σ是一个激活函数。a^|l|,W^|l|,b^|l|分别是第l层的输出，模型权重和偏置值。

最终输出为y_DNN，其公式可表达为：

公式八：

y_DNN＝σ(W^|H|+1·a^H+b^|H|+1)

其中|H|是隐藏层的数目，σ是激活函数。

其中拟合模型，类似于其他深度学习模型，通过反向传播和求导链式法则对参数进行调整。模型拟合完成后预测用户对不同产品点击率，然后根据点击率进行排序，选出点击率较高的前n个产品以得到不同用户对不同产品的偏好信息。本发明结合深度学习和因子分解机模型，使得该方法既能获得用户与产品之间的二维交互关系，还可以获得其他信息之间的多维交互关系，以此方法，点击率的预测准确度比现有技术得到了极大的增强。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。