CN110598120A

CN110598120A - 基于行为数据的理财推荐方法及装置、设备

Info

Publication number: CN110598120A
Application number: CN201910983508.0A
Authority: CN
Inventors: 魏爽; 林路; 郏维强
Original assignee: SUNYARD SYSTEM ENGINEERING Co Ltd
Current assignee: SUNYARD SYSTEM ENGINEERING Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2019-12-20

Abstract

本发明实施例公开一种基于行为数据的理财推荐方法及装置、设备，其中方法包括如下步骤：获取多维属性信息和历史行为数据，多维属性信息包括理财产品多维属性信息及其对应的用户多维属性信息；对多维属性信息和历史行为数据进行预处理，预处理包括筛选、清晰、缺失值处理和奇异值处理中的一个或多个；将预处理后的多维属性信息输入所构建的强化学习模型网络中进行训练得到推荐知识；根据推荐知识向目标用户推荐理财产品。采用本发明，通过使用强化学习模型捕获用户的历史浏览行为序列信息，可使理财推荐的结果更加精准，用户的点击率与购买率得到较大幅度提高。

Description

基于行为数据的理财推荐方法及装置、设备

技术领域

本发明涉及理财智能推荐技术领域，尤其涉及一种基于行为数据的理财推荐方法及装置、设备。

背景技术

随着普惠金融的更加深入，智能理财推荐市场日趋成熟，理财的用户不仅数量巨大，其行为特点以及对理财产品的偏好也呈现出丰富性与多样性。因此，要让推荐***对不同特点的用户做出针对性的产品排序推荐策略，并以此带动引导理财产品的购买率的提升。目前的推荐***大多是或者基于固定的规则、或者基于商品维度的学习、或者基于用户与理财产品的相似性等这些静态指标来设计理财产品的推荐排序策略，但它没有考虑到用户购买理财产品是一个连续的过程。这一连续过程的不同阶段之间不是孤立的，而是有着紧密的联系。所以，目前的推荐策略存在如下不足之处：

1、实践中的最后结果推荐理财产品的购买率远不能令人满意

2、无法利用用户的历史浏览行为的动态信息，对用户进行用户画像的刻画。

3、用户的喜好会随着时间的推移而发生变化，传统的推荐***只能得到最大化的当前受益，无法跟踪建模用户兴趣、行为的动态变化而获得长期收益。

发明内容

本发明实施例提供一种基于行为数据的理财推荐方法及装置、设备，通过使用强化学习模型捕获用户的历史浏览行为序列信息，可使理财推荐的结果更加精准，用户的点击率与购买率得到较大幅度提高。

本发明实施例第一方面提供了一种基于行为数据的理财推荐方法，可包括：

获取多维属性信息和历史行为数据，多维属性信息包括理财产品多维属性信息及其对应的用户多维属性信息；

对多维属性信息和历史行为数据进行预处理，预处理包括筛选、清晰、缺失值处理和奇异值处理中的一个或多个；

将预处理后的多维属性信息输入所构建的强化学习模型网络中进行训练得到推荐知识；

根据推荐知识向目标用户推荐理财产品。

本发明实施例第二方面提供了一种基于行为数据的理财推荐装置，可包括：

数据获取单元，用于获取多维属性信息和历史行为数据，多维属性信息包括理财产品多维属性信息及其对应的用户多维属性信息；

数据预处理单元，用于对多维属性信息和历史行为数据进行预处理，预处理包括筛选、清晰、缺失值处理和奇异值处理中的一个或多个；

模型训练单元，用于将预处理后的多维属性信息输入所构建的强化学习模型网络中进行训练得到推荐知识；

产品推荐单元，用于根据推荐知识向目标用户推荐理财产品。

本发明实施例第三方面提供了一种计算机设备，该设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述方面的基于行为数据的理财推荐方法。

本发明实施例第四方面提供了一种计算机存储介质，该计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方面所述的基于行为数据的理财推荐方法。

在本发明实施例中，考虑了用户的行为序列信息，采用了强化学习模型，让推荐***挖掘出用户的历史浏览信息与理财产品信息之间的关系，实现精准的个性化推荐，提升了推荐理财产品的精准性与转化率，并且能够使得推荐***可以捕捉、跟踪建模用户兴趣、行为的动态变化，从而提升了推荐的动态性并获得了更为长期的收益。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于行为数据的理财推荐方法的流程示意图；

图2是本发明实施例提供的强化学习模型网络构建的流程示意图；

图3是本发明实施例提供的一种基于行为数据的理财推荐装置的结构示意图；

图4是本发明实施例提供的强化学习模型网络构建装置的结构示意图；

图5是本发明实施例提供的模块定义单元的结构示意图；

图6是本发明实施例提供的函数设计单元的结构示意图；

图7是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含，术语“第一”和“第二”仅是为了区别命名，并不代表数字的大小或者排序。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

需要说明的是，本申请提供的基于行为数据的理财推荐方法可以应用于为新用户智能推荐理财产品的应用场景。

本发明实施例中，基于行为数据的理财推荐方法可以应用于计算机设备中，该计算机设备可以是智能手机、平板电脑、PC(Personal Computer，个人计算机)等终端，也可以是其它具备计算处理能力的电子设备。

如图1所示，基于行为数据的理财推荐方法至少可以包括以下几个步骤：

S101，获取多维属性信息和历史行为数据。

可以理解的是，上述多为属性信息可以包括理财产品多维属性信息及其对应的用户多维属性信息，其中，用户多为属性信息可以包括性别、年龄、城市等，理财产品多维属性信息可以包括类别、标签、售卖点等信息；上述历史行为数据可以是用户对理财产品点击购买的历史行为数据，可以包括用户对各个理财产品历史上的点击与购买的时间序列。

在可选实施例中，设备可以对多维属性信息进行规范化处理，得到符合预设格式的量化数据，优选的，可以采用布尔型规范化处理。

S102，对多维属性信息和历史行为数据进行预处理。

具体实现中，设备可以对多维属性信息和历史行为数据进行预处理，具体包括筛选、清晰、缺失值处理和奇异值处理中的一个或多个。

例如，可以对空数据补齐，做插值平滑处理，使数据保持一致。针对奇异值数据处理方式为：若为异常高点或者异常低点，可剔除该条数据。

S103，将预处理后的多维属性信息输入所构建的强化学习模型网络中进行训练得到推荐知识。

可以理解的是，设备需要先构建强化学习模型网络，具体的构建过程如下：

首先，设备可以定义强化学习模型中的状态模块、动作模块和奖励模块，再对强化学习模型中的策略函数、策略梯度和值函数模块进行算法优化设计，然后按照设计的算法构建强化学习模型网络。

进一步的，设备可以将预处理后的多维属性信息输入所构建的强化学习模型网络中进行训练，最终推荐理财***将习得推荐知识。

S104，根据推荐知识向目标用户推荐理财产品。

可以理解的是，新的用户样本进来***将自动给出用户最合适点击和购买的理财产品，并推荐给目标客户，该目标用户即新的用户样本对应的用户。

可选的，设备可以通过短信和/或电话的方式想目标用户推荐理财产品，并获得用户的反馈信息。

在本发明实施例的一种具体实现方式中，设备构建强化学习模型网络的过程可以如图2所示，包括以下几个步骤：

S201，定义强化学习模型中的状态模块。

具体实现中，设备可以基于历史行为数据抽取状态特征，将预设时间段内历史行为数据对应的理财产品多维属性信息作为当前模型所处的状态，基于状态特征和状态构建定义强化学习模型中的状态模块。

在本申请实施例中，用户被视为响应推荐***动作的环境，推荐***需要感知环境的状态进行决策。基于假设用户在理财产品序列中倾向于点击他感兴趣的产品，并且较少点击他不感兴趣的产品，将用户的历史点击行为作为抽取状态特征的数据来源。在每一次推荐前，将用户在最近一段时间内点击的理财产品特征(包括利率、转化率、销量等)作为当前推荐***所处的状态，另外，为了区别不同群体的用户，将用户的长期特征加入到状态中，最终状态s定义为：

s＝(rate₁,cvr₁,sale₁,…,rate_n,cvr_n,sale_n,power,item)

其中n表示历史点击理财产品的个数，为可变参数，rate_i,cvr_i,sale_i,power,item分别表示理财产品i的利率、转化率和销量以及用户的购买力、偏好产品的标签。在具体实现时，由于状态特征不同维度的尺度不同，将所有维度的特征值归一化到[0,1]区间后在进行处理。

S202，定义强化学习模型中的动作模块。

具体的，设备可以构建排序向量，以排序向量定义强化学习模型中的动作模块。例如，排序向量μ＝(μ₁,μ₂,…,μ_m)，排序次序是由其特征分数和排序权重向量μ的内积所决定的。

S203，定义强化学习模型中的奖励模块。

具体的，设备可以结合多维属性信息和***排序策略对理财产品进行排序，为强化学习模型中的奖赏函数引入先验知识，基于引入先验知识的奖赏函数定义强化学习模型中的奖励模块。

在本申请实施例中，根据推荐***给出理财产品的排序结果，用户对其进行点击和购买等行为都可以看成对推荐***排序策略的直接反馈。奖励规则定义如下：

(1)在推荐序列中如果仅发生产品的点击行为，则奖励值为用户点击产品的数量。

(2)在推荐序列中如果发生理财产品的购买行为，则奖励值为产品被购买的金额。

(3)其他情况，奖赏值为0。

为了提高不同排序策略在反馈信号上的区分度，可以在原有的奖赏函数中引入一些先验的知识，加速强化学习模型的收敛，将“在状态s上选择动作a，并转移到状态s’”的奖赏值定义为：

R(s,a,s')＝R₀(s,a,s')+Φ(s)

其中，R₀(s,a,s')为原始定义的奖赏函数，Φ(s)为包含先验知识的函数，将每个状态对应的推荐理财产品列表信息纳入到奖赏的定义中去，定义为：

其中，K为状态s对应推荐理财产品列表中产品的个数，i表示第i个产品，μ_θ(s)为推荐***在状态s执行的动作，ML(i|μ_θ(s))表示排序策略μ_θ(s)为时对理财产品的点击或成交的极大似然估计，令理财产品i的特征向量(即利率、销量、人气分、实时分等特征)为则为理财产品i在状态s下的最终排序分数。令y_i∈{0,1}为理财产品i实际被点击或成交的标签，假定理财产品i的实际点击成交概率p_i与其排序分数满足

则理财产品i的似然概率为：

对其取对数，并将所有理财产品对数似然概率综合起来：

将点击和成交的效果纳入其中考虑，对于只有点击的理财产品推荐列表，其对应的为：

其中，是理财产品i被点击与否的标签。对于有成交发生的样本，将商品价格因素加入其中，得到

其中，和Pr ice_i分别是理财产品i被购买与否的标签和它的价格。

S204，对强化学习模型中的策略函数、策略梯度和值函数模块进行算法优化设计。

具体实现中，设备可以采用参数化的函数对策略进行表达，通过优化参数完成策略函数的学习。优选的，设备可以采用策略逼近方法，即用参数化的函数对策略进行表达，通过优化参数来完成策略的学习。用确定性策略梯度算法来进行排序的实时调控优化。以状态特征为输入，以最终生效的排序权重分为输出，对于任意状态s，动作输出

其中，θ＝(θ₁,θ₂,…,θ_m)为动作的参数向量，为第i维的排序权重分，具体有

其中φ(s)为状态s的特征向量，C_i为第i维排序权重分的常数。

进一步的，设备可以基于确定的策略在所有状态上获得目标函数，并根据梯度策略优化更新该目标函数，其中，目标函数为长期积累奖赏期望之和。需要说明的是，强化学习模型的目标是最大化长期累积奖赏，即在确定性策略μ_θ的作用下，推荐***在所有状态上所能够获得的长期累积奖赏期望之和：

通过求取目标函数J(μ_θ)关于参数θ的梯度来使得J(μ_θ)最大化，使θ往梯度方向进行更新。根据策略梯度定理，其梯度为

其中，Q^μ(s,a)为策略μ_θ下状态动作对(s,a)对应的长期累积奖赏。因此，参数θ的更新公式为

其中，α_θ为学习率，为一个雅克比矩阵，Q^μ(s,a)需用值函数估计方法进行近似计算，采用线性函数估计方法，将Q函数用参数向量w表达：

Q^μ(s,a)≈Q^w(s,a)＝φ(s,a)^Tw

其中，φ(s,a)为状态动作对(s,a)的特征向量，可以选择令则可以得到

因此，策略函数的参数向量的更新公式为：

进一步的，设备可以引入优势函数，基于优势函数设计强化学习模型中的值函数。可以理解的是，值函数Q^w的参数向量w也需要进行更新，可以参照Q-learning算法，对于样本(s_t,a_t,r_t,s_t+1)有：

其中，s_t,a_t,r_t,s_t+1分别为推荐***在t时刻感知的状态、所做的动作、从获得的奖赏反馈和在t+1时刻感知的状态，δ_t+1被称作差分误差，α_w为w的学习率。引入优势函数，将Q函数用状态值函数V(s)和优势函数A(s，a)的和进行表达，用V(s)从全局角度估计状态s的值，用A(s，a)从局部角度估计动作a在状态s中的相对于其他动作的优势：

其中，w和v分别为A和V的参数向量。最后，所有参数的更新方式如下：

v_t+1＝v_t+α_vδ_t+1φ(s_t)

S205，按照设计的算法构建强化学习模型网络。

在本实施例中，通过构建强化学习模型网络，进一步增加了个性化推荐的精准度。

下面将结合附图3-附图6，对本发明实施例提供的基于行为数据的理财推荐装置和强化学习模型网络构建装置进行详细介绍。需要说明的是，附图3-附图6所示的理财推荐装置，用于执行本发明图1和图2所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1和图2所示的实施例。

请参见图3，为本发明实施例提供了一种基于行为数据的理财推荐装置的结构示意图。如图3所示，本发明实施例的理财推荐装置10可以包括：数据获取单元101、数据预处理单元102、模型训练单元103、产品推荐单元104和数据规范单元105。如图4所示，网络构建装置20可以包括模块定义单元201、函数设计单元202和模型构建单元203。其中，模块定义单元201如图5所示，包括特征抽取子单元2011、状态确定子单元2012、状态定义子单元2013、动作定义子单元2014、产品排序子单元2015、知识引入子单元2016和奖励定义子单元2017，函数设计单元202如图6所示，包括策略函数设计子单元2021、策略梯度设计子单元2022和值函数设计子单元2023。

数据获取单元101，用于获取多维属性信息和历史行为数据，多维属性信息包括理财产品多维属性信息及其对应的用户多维属性信息。

可选的，数据规范单元105，用于对多维属性信息进行规范化处理，得到符合预设格式的量化数据。

数据预处理单元102，用于对多维属性信息和历史行为数据进行预处理，预处理包括筛选、清晰、缺失值处理和奇异值处理中的一个或多个。

模型训练单元103，用于将预处理后的多维属性信息输入所构建的强化学习模型网络中进行训练得到推荐知识。

产品推荐单元104，用于根据推荐知识向目标用户推荐理财产品。

在另一种实施例中：

模块定义单元201，用于定义强化学习模型中的状态模块、动作模块和奖励模块。

在可选实施例中，模块定义单元201包括：

特征抽取子单元2011，用于基于历史行为数据抽取状态特征。

状态确定子单元2012，用于将预设时间段内历史行为数据对应的理财产品多维属性信息作为当前模型所处的状态。

状态定义子单元2013，用于基于状态特征和状态构建定义强化学习模型中的状态模块。

动作定义子单元2014，用于构建排序向量，以排序向量定义强化学习模型中的动作模块。

产品排序子单元2015，用于结合多维属性信息和***排序策略对理财产品进行排序。

知识引入子单元2016，用于为强化学习模型中的奖赏函数引入先验知识。

奖励定义子单元2017，用于基于引入先验知识的奖赏函数定义强化学习模型中的奖励模块。

函数设计单元202，用于对强化学习模型中的策略函数、策略梯度和值函数模块进行算法优化设计。

在可选实施例中，函数设计单元202包括：

策略函数设计子单元2021，用于采用参数化的函数对策略进行表达，通过优化参数完成策略函数的学习。

策略梯度设计子单元2022，用于基于确定的策略在所有状态上获得目标函数，并根据梯度策略优化更新目标函数，目标函数为长期积累奖赏期望之和。

值函数设计子单元2023，用于引入优势函数，基于优势函数设计强化学习模型中的值函数。

模型构建单元203，用于按照设计的算法构建强化学习模型网络。

需要说明的是，本实施例中各单元和子单元的详细执行过程可以参将上述方法实施例中的描述，此处不再赘述。

本发明实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1和图2所示实施例的方法步骤，具体执行过程可以参见图1和图2所示实施例的具体说明，在此不进行赘述。

本申请实施例还提供了一种计算机设备。如图7所示，计算机设备30可以包括：至少一个处理器301，例如CPU，至少一个网络接口304，用户接口303，存储器305，至少一个通信总线302，可选地，还可以包括显示屏306。其中，通信总线302用于实现这些组件之间的连接通信。其中，用户接口303可以包括触摸屏、键盘或鼠标等等。网络接口304可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通过网络接口304可以与服务器建立通信连接。存储器305可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器，存储器305包括本发明实施例中的flash。存储器305可选的还可以是至少一个位于远离前述处理器301的存储***。如图7所示，作为一种计算机存储介质的存储器305中可以包括操作***、网络通信模块、用户接口模块以及程序指令。

需要说明的是，网络接口304可以连接接收器、发射器或其他通信模块，其他通信模块可以包括但不限于WiFi模块、蓝牙模块等，可以理解，本发明实施例中计算机设备也可以包括接收器、发射器和其他通信模块等。

处理器301可以用于调用存储器305中存储的程序指令，并使计算机设备30执行以下操作：

根据推荐知识向目标用户推荐理财产品。

在一些实施例中，设备30还用于：

定义强化学习模型中的状态模块、动作模块和奖励模块；

对强化学习模型中的策略函数、策略梯度和值函数模块进行算法优化设计；

按照设计的算法构建强化学习模型网络。

在一些实施例中，设备30还用于：

对多维属性信息进行规范化处理，得到符合预设格式的量化数据。

在一些实施例中，规范化处理为布尔型规范化处理。

在一些实施例中，设备30在定义强化学习模型中的状态模块时，具体用于：

基于历史行为数据抽取状态特征；

将预设时间段内历史行为数据对应的理财产品多维属性信息作为当前模型所处的状态；

基于状态特征和状态构建定义强化学习模型中的状态模块。

在一些实施例中，设备30在定义强化学习模型中的动作模块时，具体用于：

构建排序向量，以排序向量定义强化学习模型中的动作模块。

在一些实施例中，设备30在定义强化学习模型中的奖励模块时，具体用于：

结合多维属性信息和***排序策略对理财产品进行排序；

为强化学习模型中的奖赏函数引入先验知识；

基于引入先验知识的奖赏函数定义强化学习模型中的奖励模块。

在一些实施例中，设备30在对强化学习模型中的策略函数、策略梯度和值函数模块进行算法优化设计时，具体用于：

采用参数化的函数对策略进行表达，通过优化参数完成策略函数的学习；

基于确定的策略在所有状态上获得目标函数，并根据梯度策略优化更新目标函数，目标函数为长期积累奖赏期望之和；

引入优势函数，基于优势函数设计强化学习模型中的值函数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于行为数据的理财推荐方法，其特征在于，包括：

获取多维属性信息和历史行为数据，所述多维属性信息包括理财产品多维属性信息及其对应的用户多维属性信息；

对所述多维属性信息和所述历史行为数据进行预处理，所述预处理包括筛选、清晰、缺失值处理和奇异值处理中的一个或多个；

根据所述推荐知识向目标用户推荐理财产品。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

定义强化学习模型中的状态模块、动作模块和奖励模块；

对所述强化学习模型中的策略函数、策略梯度和值函数模块进行算法优化设计；

按照设计的算法构建强化学习模型网络。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述多维属性信息进行规范化处理，得到符合预设格式的量化数据。

4.根据权利要求3所述的方法，其特征在于，所述规范化处理为布尔型规范化处理。

5.根据权利要求2所述的方法，其特征在于，所述定义强化学习模型中的状态模块，包括：

基于所述历史行为数据抽取状态特征；

将预设时间段内所述历史行为数据对应的理财产品多维属性信息作为当前模型所处的状态；

基于所述状态特征和所述状态构建所述定义强化学习模型中的状态模块。

6.根据权利要求2所述的方法，其特征在于，所述定义强化学习模型中的动作模块，包括：

构建排序向量，以所述排序向量定义强化学习模型中的动作模块。

7.根据权利要求2所述的方法，其特征在于，所述定义强化学习模型中的奖励模块，包括：

结合所述多维属性信息和***排序策略对理财产品进行排序；

为所述强化学习模型中的奖赏函数引入先验知识；

8.根据权利要求2所述的方法，其特征在于，所述对所述强化学习模型中的策略函数、策略梯度和值函数模块进行算法优化设计，包括：

基于确定的策略在所有状态上获得目标函数，并根据梯度策略优化更新所述目标函数，所述目标函数为长期积累奖赏期望之和；

引入优势函数，基于所述优势函数设计所述强化学习模型中的值函数。

9.一种基于行为数据的理财推荐装置，其特征在于，包括：

数据获取单元，用于获取多维属性信息和历史行为数据，所述多维属性信息包括理财产品多维属性信息及其对应的用户多维属性信息；

数据预处理单元，用于对所述多维属性信息和所述历史行为数据进行预处理，所述预处理包括筛选、清晰、缺失值处理和奇异值处理中的一个或多个；

产品推荐单元，用于根据所述推荐知识向目标用户推荐理财产品。

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的基于深度学习的文本摘要自动生成方法。