CN108985638A

CN108985638A - 一种用户投资风险评估方法和装置以及存储介质

Info

Publication number: CN108985638A
Application number: CN201810827006.4A
Authority: CN
Inventors: 杨凡; 施雯洁; 黄斐
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2018-12-11
Anticipated expiration: 2038-07-25
Also published as: CN108985638B

Abstract

本发明实施例公开了一种用户投资风险评估方法和装置以及存储介质，用于提高对用户的投资风险评估效率，且具有评估准确的效果。本发明实施例提供一种用户投资风险评估方法，包括：从投资交易平台中获取待评估用户的交易行为数据，所述交易行为数据用于表示所述待评估用户在不同盈亏环境下采取的交易行为；根据所述交易行为数据构建所述待评估用户的行为参数和所述待评估用户所处的环境参数；使用所述行为参数和所述环境参数作为强化学习模型的输入参数，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息。

Description

一种用户投资风险评估方法和装置以及存储介质

技术领域

本发明涉及风险评估技术领域，尤其涉及一种用户投资风险评估方法和装置以及存储介质。

背景技术

用户能够承担的投资风险识别是金融场景中非常重要的环节，不仅可以有效评估用户的投资风险能力是否匹配产品的风险评级，而且可以针对不同风险偏好的用户推荐不同的风险产品。

当前通用的用户投资风险评估采用的是问卷填写的方法，在问卷中设置是否有投资经验、投资收益预期、投资连结保险的保费占家庭收入的百分比、一年投资里能容忍的最大跌幅底线等选项让用户自行填写。然后根据用户填写的理财经验、投资期望、收入及可承受的风险等结果来评估用户的投资风格，从而划分出该用户属于保守型，或者稳健型或者积极型。

通过上述现有技术的说明可知，现有技术中用户填写的问卷答案可能不是用户的真实想法或者行为准则，用户可以存在随机填写问卷调查的情况，导致问卷调查结果不能真实判断用户的风险承受能力，另外问卷调查的风险评估是静态的，在不同的环境下，用户的风险偏好可能不同。在用户填写完问卷之后，还需要针对问卷的各个选项进行统计才能得到评估结果。

因此现有技术提供的用户投资风险评估方法存在风险评估结果不准确、评估效率低的问题。

发明内容

本发明实施例提供了一种用户投资风险评估方法和装置以及存储介质，可以用于提高对用户的投资风险评估效率，且具有评估准确的效果。

本发明实施例提供以下技术方案：

一方面，本发明实施例提供一种用户投资风险评估方法，包括：

从投资交易平台中获取待评估用户的交易行为数据，所述交易行为数据用于表示所述待评估用户在不同盈亏环境下采取的交易行为；

根据所述交易行为数据构建所述待评估用户的行为参数和所述待评估用户所处的环境参数；

使用所述行为参数和所述环境参数作为强化学习模型的输入参数，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息。

一方面，本发明实施例还提供一种用户投资风险评估装置，包括：

原始数据获取模块，用于从投资交易平台中获取待评估用户的交易行为数据，所述交易行为数据用于表示所述待评估用户在不同盈亏环境下采取的交易行为；

模型参数构建模块，用于根据所述交易行为数据构建所述待评估用户的行为参数和所述待评估用户所处的环境参数；

风险评估模块，用于使用所述行为参数和所述环境参数作为强化学习模型的输入参数，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息。

在前述方面中，用户投资风险评估装置的组成模块还可以执行前述一方面以及各种可能的实现方式中所描述的步骤，详见前述对前述一方面以及各种可能的实现方式中的说明。

一方面，本发明实施例提供一种用户投资风险评估装置，该用户投资风险评估装置包括：处理器、存储器；存储器用于存储指令；处理器用于执行存储器中的指令，使得用户投资风险评估装置执行如前述一方面中任一项的方法。

一方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

在本发明实施例中，首先从投资交易平台中获取待评估用户的交易行为数据，该交易行为数据可以用于表示待评估用户在不同盈亏环境下采取的交易行为，然后根据交易行为数据构建待评估用户的行为参数和待评估用户所处的环境参数，最后使用行为参数和环境参数作为强化学习模型的输入参数，通过强化学习模型输出待评估用户对应的最大投资风险承受能力信息。本发明实施例中基于用户的交易行为数据可以表示出待评估用户在不同盈亏环境下采取的交易行为，即采用用户的真实交易行为来构建行为参数以及环境参数，本发明实施例采用机器学习方法中的强化学习方法构建出强化学习模型，基于该强化学习模型可以评估出用户的最大投资风险承受能力信息。相比于现有技术的问卷调查方法，本发明实施例可提高对用户的投资风险评估效率，且基于用户的真实交易行为进行评估，因此还具有评估准确的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的用户投资风险评估方法应用的一种***框架示意图；

图2为本发明实施例提供的用户投资风险评估方法应用的另一种***框架示意图；

图3为本发明实施例提供的一种用户投资风险评估方法的流程方框示意图；

图4为本发明实施例提供的用户投资风险评估方法通过强化学习模型进行风险评估的应用场景流程示意图；

图5为本发明实施例提供的强化模型根据用户的交易行为数据设置激励函数的示意图；

图6-a为本发明实施例提供的一种用户投资风险评估装置的组成结构示意图；

图6-b为本发明实施例提供的另一种用户投资风险评估装置的组成结构示意图；

图6-c为本发明实施例提供的一种用户偏好获取模块的组成结构示意图；

图6-d为本发明实施例提供的一种风险评估模块的组成结构示意图；

图7为本发明实施例提供的用户投资风险评估方法应用于终端的组成结构示意图；

图8为本发明实施例提供的用户投资风险评估方法应用于服务器的组成结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、***、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

如图1和图2所示，为本发明实施例提供的用户投资风险评估方法应用的***框架示意图。本发明实施例提供的***框架中可以包括：投资交易平台以及用户投资风险评估装置，该用户投资风险评估装置通过网络和投资交易平台进行通信，例如通过无线网络或者有线网络进行通信。其中，投资交易平台中记录有多个用户的大量真实交易行为，通过投资交易平台记录的用户交易行为数据可以真实反映出用户在不同的盈亏环境下的表现，用户投资风险评估装置可以从投资交易平台获取用户的交易行为数据，从而基于本发明实施例提供的用户投资风险评估方法进行有效且真实的评估。本发明实施例提供的用户投资风险评估装置可以有多种实现方式，如图1所示，例如当该用户投资风险评估装置为终端时，用户可以操作该终端发送用户投资风险评估请求，从而该终端可以从投资交易平台获取到该用户的交易行为数据，以此交易行为数据作为输入参数进行评估。如图2所示，例如当该用户投资风险评估装置为服务器时，用户可以操作终端发送用户投资风险评估请求，终端和服务器之间也建立有通信连接，因此服务器可以从终端接收到用户投资风险评估请求，然后该服务器可以从投资交易平台获取到该用户的交易行为数据，以此交易行为数据作为输入参数进行评估，在服务器输出评估结果之后，可以通过网络发送给终端，从而终端可以向用户显示出该用户对应的投资风险评估结果。

在发明实施例中，用户投资风险识别是金融场景中非常重要的技术，不仅可以有效评估用户的投资风险能力是否匹配金融产品的风险评级，而且可以针对不同风险偏好的用户推荐不同的风险产品。在所有的金融场景中，都需要对用户的投资风险进行有效的识别和评级。本发明实施例提出了一种基于强化学习的用户投资风险识别方法，以用户在投资时对环境的反应行为，即在不同的盈亏环境下的反应，使用机器学习方法中的强化学习方法，评估用户的投资风险承受能力。本发明实施例可以广泛应用于互联网金融的各种场景，如证券，互联网理财及银行理财等场景，对合理评估用户的风险承受能力和保障用户在风险承受能力下投资与之匹配的金融产品至关重要。

接下来对本发明实施例提供的用户投资风险评估方法分别进行详细说明。

本发明用户投资风险评估方法的一个实施例，具体可以应用于对用户的投资风险承受能力的评估场景中，请参阅图3所示，本发明一个实施例提供的用户投资风险评估方法，可以包括如下步骤：

301、从投资交易平台中获取待评估用户的交易行为数据，交易行为数据用于表示待评估用户在不同盈亏环境下采取的交易行为。

其中，投资交易平台中记录有多个用户的大量真实交易行为，通过投资交易平台记录的用户交易行为数据可以真实反映出用户在不同的盈亏环境下的表现，用户投资风险评估装置在确定出待评估用户之后，用户投资风险评估装置可以向投资交易平台发送数据获取请求，携带待评估用户的标识，投资交易平台可以反馈待评估用户的交易行为数据给用户投资风险评估装置。举例说明如下，用户投资风险评估装置可以接收用户发送的评估请求，从而获取到待评估用户的标识。又如，用户投资风险评估装置可以实时监测用户的交易行为，以确定用户是否产生有新的交易行为，在监测到该用户产生有新的交易行为时，用户投资风险评估装置可以向投资交易平台发送数据获取请求。

在本发明的一些实施例中，投资交易平台中存储的交易行为数据包括：待评估用户投资的标的名称以及标的数量、每种标的的持仓数量、每种标的的收益、每种标的的交易行为类型、交易行为类型对应的持仓变化量、持仓变化时的收益率。

其中，标的指的是待评估用户所投资的金融产品，例如可以是股票或者基金等。标的名称指的是用户所投资的金融产品的名称，标的数量指的是用户所投资的金融产品的个数，假设用户历史累计共投资过n只标的，则标的数量的取值为n，n可以正整数。

针对每种标的，交易行为数据中还可以包括如下数据：每种标的的持仓数量、每种标的的收益、每种标的的交易行为类型、交易行为类型对应的持仓变化量、持仓变化时的收益率。

其中，标的的持仓数量指的是待评估用户在该种标的上持有的金额值，标的的收益指的是用户持仓该种标的时所能够获取的收益，该收益可以用百分比来表示。标的的交易行为类型指的是待评估用户针对该标的所采取的行动，交易行为类型可以根据具体场景来设置具体的行为类型，例如交易行为类型至少包括:减少持有量、增加持有量、全部抛出等，对于不同的交易行为类型可以表示待评估用户在不同盈亏环境下采取的交易动作。针对待评估用户所采取的交易行为类型，还可以记录下对应的持仓变化量，即待评估用户采取具体的交易行为时所操作的持仓变化量，该持仓变化量可以表示用户能够承受的损失数量。通过交易行为数据还需要记录下在待评估用户的持仓变化时产生的收益率，该持仓变化时的收益率表示了在不同盈亏环境下用户所能够得到的收益的变化情况。

302、根据交易行为数据构建待评估用户的行为参数和待评估用户所处的环境参数。

在本发明实施例中，通过投资交易平台获取到待评估用户的交易行为数据之后，按照强化学习算法的要求需要对该交易行为数据进行分析，以构建出待评估用户的行为参数和待评估用户所处的环境参数。其中，行为参数指的是待评估用户针对不同标的所采取的交易行为类型，交易行为类型可以根据具体场景来设置具体的行为类型，例如交易行为类型至少包括:减少持有量、增加持有量、全部抛出等，对于不同的交易行为类型可以表示待评估用户在不同盈亏环境下采取的交易动作。环境参数是指市场行情和用户的盈亏情况，其中市场行情可以锚定某一市场指数作为参照，而用户的盈亏是指用户在所有标的上的总体盈亏和用户在单个标的上的盈亏。通过环境参数可以确定出市场行情以及用户的盈亏情况。通过待评估用户的交易行为数据确定出行为参数和环境参数，通过该行为参数和环境参数可以进行强化学习模型的训练。

在本发明的一些实施例中，投资交易平台中存储的交易行为数据包括：待评估用户投资的标的名称以及标的数量、每种标的的持仓数量、每种标的的收益、每种标的的交易行为类型、交易行为类型对应的持仓变化量、持仓变化时的收益率。在这种实现场景下，步骤302根据交易行为数据构建待评估用户的行为参数和待评估用户所处的环境参数，包括：

根据每种标的的交易行为类型获取待评估用户对所有标的分别采取的行为参数；

根据每种标的的持仓数量、每种标的的收益、交易行为类型对应的持仓变化量、持仓变化时的收益率获取所有标的对应的环境参数。

其中，在行为参数中可以根据待评估用户所投资过的所有标的记录每种标的的交易行为类型。例如，待评估用户所有的投资记录为用户的行为参数a：a＝{act_i}，其中，假设用户历史累计共投资过n只标的记为capt_i，i∈{1,2,...,n}，capt为目标标的c(例如某只基金)，act为采取的行动。

在环境参数中可以根据待评估用户所投资过的所有标的记录每种标的的的持仓数量、每种标的的收益、交易行为类型对应的持仓变化量、持仓变化时的收益率。例如，待评估用户在产生行为的环境为s：s＝{state_i}，其中，state_i＝(amt_i,prof_i,Δamt_i,Δprop_i)，amt为c对应持仓数量即金额，prof为对应该持仓c的收益，Δamt为act下amt的持仓变化数量，Δprop是指act下持仓变化的收益率。由此举例说明可知，行为参数a和环境参数s均来自待评估用户的真实交易行为数据。

303、使用行为参数和环境参数作为强化学习模型的输入参数，通过强化学习模型输出待评估用户对应的最大投资风险承受能力信息。

在本发明实施例中，使用机器学习方法中的强化学习方法创建强化学习模型，强化学习模型是学习一个最优策略，可以让待评估用户在特定环境中，根据当前的状态做出行动，从而获得最大回报。通过前述步骤中对交易行为数据进行解析生成待评估用户的行为参数和环境参数之后，使用行为参数和环境参数作为强化学习模型的输入参数，结合本发明实施例中预先设置的强化学习模型，通过强化学习模型的多次循环计算，可以输出待评估用户对应的最大投资风险承受能力信息，其中，最大投资风险承受能力信息表示的是通过本发明实施例提供的机器学习模型为用户评估的最大投资风险承受能力，该最大投资风险承受能力可以表示出用户最大的投资风险承受的损失金额，以及对应的最大可以承受的损失比例。基于本发明实施例提供的用户投资风险评估方法进行有效且真实的评估。

本发明实施例中采用的强化学习模型可以是通过动态规划方法、蒙特卡罗方法、时序差分方法、或者策略梯度方法训练完成的模型。举例说明，本发明实施例中采用时序差分方法创建强化学习模型，本发明实施例采用的时序差分方法结合了动态规划和蒙特卡罗方法，可以模拟一个情节，每行动一步以后，根据新状态的价值，来估计执行前的状态价值。例如可以采用的时序差分方法包括：Q-Learning与Sarsa，两者的不同之处体现在选取行动上，Q-Learning始终是选择最优价值的行动，而Sarsa则是遵循着控制策略来行动。以强化学习模型是通过Q-learning算法完成为例，它提供智能***在马尔可夫环境中利用经历的动作序列选择最优动作的一种学习能力。Q-learning基于的一个关键假设是智能体和环境的交互可看作为一个Markov决策过程，即智能体当前所处的状态和所选择的动作，决定一个固定的状态转移概率分布、下一个状态、并得到一个即时回报。

在本发明的一些实施例中，步骤303使用行为参数和环境参数作为强化学习模型的输入参数，通过强化学习模型输出待评估用户对应的最大投资风险承受能力信息之后，本发明实施例提供的用户投资风险评估方法，还可以包括如下步骤：

根据最大投资风险承受能力信息获取待评估用户对应的投资风险偏好类型。

其中，通过强化学***台发行新的金融产品时，可以将不同的风险级别的产品给不同风险偏好的用户展示。上述例子仅是该发明方法的一个应用场景，基于对用户投资风险偏好的有效识别，应用在产品流程或者运营推广中，都属于该发明的潜在应用场景。

可选的，在本发明的一些实施例中，根据最大投资风险承受能力信息获取待评估用户对应的投资风险偏好类型，包括：

当强化学习模型评估出多个用户的最大投资风险承受能力信息时，根据所有用户的最大投资风险承受能力信息进行聚类分析，得到用户风险偏好分类模型，用户风险偏好分类模型包括：所有的投资风险偏好类型；

根据待评估用户对应的最大投资风险承受能力信息，查询用户风险偏好分类模型，通过用户风险偏好分类模型输出待评估用户对应的投资风险偏好类型。

其中，基于本发明实施例提供的强化学***台获取到多个用户的交易行为数据，从而针对每个用户都可以提取到行为参数以及环境参数，最后通过强化学习模型可以输出每个用户的最大投资风险承受能力信息，基于每个所有用户的最大投资风险承受能力信息进行聚类分析，可以得到用户风险偏好分类模型，该用户风险偏好分类模型中存储有所有用户的投资风险偏好类型，根据待评估用户的用户标识可以查询用户风险偏好分类模型，得到待评估用户对应的投资风险偏好类型。本发明实施例中在强化学习模型输出用户的最大投资风险承受能力信息之后，还提供一种用户风险偏好分类模型，对所有用户基于上述风险承受能力，使用聚类方法(如k-means)，生成用户投资风险分类。举例说明如下，本发明实施例中提供的用户风险偏好分类模型中，可以按照预设的目标进行分类，比如可以分为3种类型，分别是积极型、稳健型、保守型，其中，积极型指的是最大投资风险承受能力是50w，亏损比例为10％，稳健型指的是最大投资风险承受能力是10w，亏损比例为5％，保守型指的是最大投资风险承受能力是1万，亏损比例为5％。不限定的是，本发明实施例中也可以设置更多的用户偏好分类，此处不再逐一举例说明。

监测待评估用户的交易行为数据是否有更新；

当存在更新后的交易行为数据时，通过强化学习模型重新评估待评估用户对应的最大投资风险承受能力信息。

其中，用户的最大投资风险承受能力并不是固定不变的，用户投资风险评估装置可以监测用户在投资交易平台上的最新行为，以此判断待评估用户的交易行为数据是否有数据更新，本发明实施例中还根据用户的交易行为数据的更新动态的及时的重新评估待评估用户对应的最大投资风险承受能力信息，即在获取到更新后的交易行为数据之后，重新执行本发明实施例前述步骤301至步骤303描述的技术方案，从而通过强化学习模型重新输出待评估用户对应的最大投资风险承受能力信息，从而实现对用户进行动态的投资风险评估，以输出最新的最大投资风险承受能力。

在本发明的一些实施例中，步骤303使用行为参数和环境参数作为强化学习模型的输入参数，通过强化学习模型输出待评估用户对应的最大投资风险承受能力信息，包括：

根据行为参数和环境参数获取强化学习模型的激励函数，并确定为激励函数配置的衰减量；

通过强化学习模型，在行为参数和环境参数的基础上对待评估用户下一步可能采取的交易行为进行评估，得到待评估用户采取的交易行为类型的概率；

通过强化学习模型，基于预置的学习率、激励函数以及相应的衰减量、待评估用户采取的交易行为类型的概率进行循环计算，直至达到模型的最优目标时，通过强化学习模型输出待评估用户对应的最大投资风险承受能力信息。

其中，本发明实施例中需要为强化学习模型设置激励函数，即根据待评估用户的行为参数以及环境参数来设置激励函数，激励函数定义了整个强化学习模型的学习目标，并且把最终的目标用精确的数值来表示。激励函数的输入为观察到的环境状态变量，并通过某种映射，输出一个数值，这个数值大，表明目前的收益越大，如果这个数值越小，表明强化学习模型的收益越小。在获取到激励函数之后，还需要对激励进行衰减，即设置激励函数的衰减量，该衰减量具体可以是预设的常量，对激励函数设置衰减量，可以避免朝目标方向的反复迭代但无法收敛。举例说明如下，该衰减量可以设置为0.9，或者0.7，或者0.7至0.9之间的一个常量值，具体取决于实际应用场景中对激励函数的控制行为。

在获取到行为参数和环境参数之后，接下来以行为参数和环境参数作为基础，通过强化学习模型对待评估用户下一步可能采取的交易行为进行评估，得到待评估用户采取的交易行为类型的概率。例如，使用当前的环境参数，通过强化学习模型来预估用户下一步可能采取的交易行为类型，得到预测出的用户采取不同交易行为类型的概率，假设用户的行为是选择各种动作的概率，概率之和为1，即：buy+add+stay+redu+clearn＝1，buy为申购，add为加仓，stay为保持不变，redu为减仓，clearn为清仓。

在本发明的上述实施例中，还可以为强化学习模型设置学习率，通过学习率来决定这次的误差有多少是要被学习的。在预测出待评估用户采取的交易行为类型的概率之后，通过强化学习模型，基于预置的学习率、激励函数以及相应的衰减量、待评估用户采取的交易行为类型的概率进行循环计算，针对强化学习模型所采用的具体强化学习算法的不同，针对强化学习模型的循环计算过程可以结合场景来确定，在上述循环计算过程中，需要在固定行为参数的基础上更新环境参数，然后在固定环境参数的基础上更新行为参数，通过多次的循环计算，在达到模型的最优目标时可以结束上述循环计算，通过此时得到的强化学习模型，输出待评估用户对应的最大投资风险承受能力信息。后续应用场景中结合强化学习算法为Q-learning算法，来说明学习用户的投资风险的详细过程。

可选的，在本发明的一些实施例中，用户的行为参数如下五种的交易行为类型：申请购买、加仓、持仓保持不变、减仓、清仓。在这种实现场景下，根据行为参数和环境参数获取强化学习模型的激励函数，包括：

当待评估用户处于亏损环境、且采取的交易行为类型为清仓时，获取激励函数的取值为最大值；或者，

当待评估用户处于亏损环境、且采取的交易行为类型为减仓时，获取激励函数的取值为正向值；或者，

当待评估用户处于亏损环境、且采取的交易行为类型为申请购买或者加仓时，获取激励函数的取值为负向值或者0；或者，

当待评估用户处于亏损环境、且采取的交易行为类型为持仓保持不变时，获取激励函数的取值为0。

其中，激励函数的取值可以有多种，例如激励函数的取值可以大于0(即为正向值)，可以为等于0，还可以小于0(即为负向值)，为了通过强化学习模型能够学习到用户的投资风险承受能力，在用户处于亏损环境、且采取的交易行为类型为清仓时，获取激励函数的取值为最大值，例如该最大值可以设置为1。在用户处于亏损环境、且采取的交易行为类型为减仓时，获取激励函数的取值为正向值，例如该正向值为大于0且小于最大值的一个中间值，具体取值取决于减仓的数量大小。在用户处于亏损环境、且采取的交易行为类型为申请购买或者加仓时，获取激励函数的取值为负向值或者0，例如该负向值为小于0且大于最小值的一个中间值，具体取值取决于申请购买或者加仓的数量大小。在用户处于亏损环境、且采取的交易行为类型为持仓保持不变时，获取激励函数的取值为0，即对于用户的保持不变的交易行为不进行正向激励，也不进行反向激励。

可选的，在本发明的一些实施例中，用户的行为参数如下五种的交易行为类型：申请购买、加仓、持仓保持不变、减仓、清仓。在这种实现场景下，前述的直至达到模型的最优目标时，通过强化学习模型输出待评估用户对应的最大投资风险承受能力信息，包括：

通过强化学习模型确定待评估用户下一步可能采取的交易行为为清仓时，通过强化学习模型输出待评估用户对应的最大投资风险承受能力信息。

其中，强化学习模型的最优目标可以设置为预测出待评估用户下一步可能采取的交易行为为清仓，通过强化学习模型预测出用户下一步可能的交易行为类型有多种，只有通过强化学习模型预测出用户采取清仓的行为时，在这种情况下得到的环境参数即为用户的最大投资风险承受能力。举例说明如下，预测出待评估用户下一步可能采取的交易行为为清仓的概率是100％时，若通过强化学习模型输出的环境参数为：用户最大的投资风险承受能力为投资2万元，最大可以承受10％的损失。

通过以上实施例对本发明实施例的描述可知，首先从投资交易平台中获取待评估用户的交易行为数据，该交易行为数据可以用于表示待评估用户在不同盈亏环境下采取的交易行为，然后根据交易行为数据构建待评估用户的行为参数和待评估用户所处的环境参数，最后使用行为参数和环境参数作为强化学习模型的输入参数，通过强化学习模型输出待评估用户对应的最大投资风险承受能力信息。本发明实施例中基于用户的交易行为数据可以表示出待评估用户在不同盈亏环境下采取的交易行为，即采用用户的真实交易行为来构建行为参数以及环境参数，本发明实施例采用机器学习方法中的强化学习方法构建出强化学习模型，基于该强化学习模型可以评估出用户的最大投资风险承受能力信息。相比于现有技术的问卷调查方法，本发明实施例可提高对用户的投资风险评估效率，且基于用户的真实交易行为进行评估，因此还具有评估准确的效果。

为便于更好的理解和实施本发明实施例的上述方案，下面举例相应的应用场景来进行具体说明。

本发明实施例提出一种基于强化学***台发行新的金融产品时，可以将不同的风险级别的产品给不同风险偏好的用户展示。本发明实施例中上述的举例说明仅是该发明方法的一个应用场景，基于对用户投资风险偏好的有效识别，应用在产品流程或者运营推广中，都属于该发明的潜在应用场景。

图4为本发明实施例提供的用户投资风险评估方法通过强化学习模型进行风险评估的应用场景流程示意图。本发明实施例提出的基于强化学习的用户投资风险评估的基本流程如下：

S01、获取用户的交易行为数据。

首先说明获取用户的交易行为数据的过程。对于已经在投资交易平台上存在交易的用户，获取用户的交易行为数据用于评估用户的风险偏好。用户的行为数据包括用户的持仓数量，持续收益，交易行为类型(申购，加仓、维持，减仓或者清仓)，记用户的行为标识为d：

d→(capt,amt,prof,act,Δamt,Δprop)----(式1)

其中，capt为目标标的c(例如某只基金)，amt为c对应持仓数量即金额，prof为对应该持仓c的收益，act为采取的行动(包括前述的五种交易行为类型)，Δamt为act下amt的持仓变化数量，Δprop是指act下持仓变化的比例，即收益率。

其中，act为采取的行动，可以包括如下：

act→(buy,add,stay,redu,clearn)----(式2)

其中，buy为申购，add为加仓，stay为保持不变，redu为减少，clearn为清仓。申购或者加仓可以理解为：申购是从0-1，加仓是从1到n。

例如，用户持有某只基金A，持仓总金额为10000元，当前的收益为10％，当前采取了加仓行为，加仓金额为5000元，那么：

d→(A,10000,10％,(1,0,0,0),5000,50％)。

S02、构建行为参数和环境参数。

环境是指市场行情和用户的盈亏，其中市场行情可以锚定某一市场指数作为参照，而用户的盈亏是指用户总体的盈亏和用户在单个标的上的盈亏。记市场行情为mp，假设用户历史累计共投资过n只标的记为capt_i，i∈{1,2,...,n}，那么用户在所有的标的上的投资记录为：

d_i→(capt_i,amt_i,prof_i,act_i,Δamt_i,Δprop_i)----(式3)

其中，Δprop_i对应于mp。

用户所有的投资记录为用户的行为参数a：

a＝{act_i}----(式4)

用户在产生行为的环境为s：

s＝{state_i}----(式5)

其中，

state_i＝(amt_i,prof_i,Δamt_i,Δprop_i)----(式6)

可以发现，a，s均来自用户的交易行为数据。

S03、通过强化学习模型评估用户的最大投资风险承受能力。

首先介绍本发明实施例提供的强化学习模型，该模型可以实现对用户的投资风险评估。

强化学习投资风险评估模型是根据持仓的行为判断用户的投资风险模型，当用户在一定亏损时出现减仓时，给用户一个投资风险为正向的激励r(reward)，当用户在一定亏损时出现申购或者加仓时，给用户一个负向的激励或者不给激励，直至用户到达清仓行为给正向激励，即可获得用户在一定持仓量情况下可以承受风险的比例，即为用户的投资风险。如前述内容的说明可知，用户有n个投资标的，每个标的都可能存在多次操作。强化学习模型即是通过对用户的行为不断的激励，获取用户投资风险的模型。

接下来，首先对强化学习算法做出描述。具体的，使用Q-learning算法来学习用户的投资风险，记Q(s,a)为Q-learning的Q表。具体的算法为：

初始化Q(s,a)，然后重复执行(对于每个状态选择ε)如下过程：

初始化状态s，

重复执行(在同一部的ε中的每一步)，

在Q表中的状态s下选择一个a，

执行动作a，观察r和s′，

Q(s,a)←Q(s,a)+α[r+γmax_a′Q(s′,a′)-Q(s,a)]----(式7)

s←s′

直至s终止。

其中，算法的目标是寻找最优的Q(s,a)，即为用户的投资风险。

接下来对强化学习算法进行说明，上述算法中，α是学习率,来决定这次的误差有多少是要被学习的,α是一个小于1的数，γ是对未来激励reward的衰减值，r是激励(reward)，图5为本发明实施例提供的强化模型根据用户的交易行为数据设置激励函数的示意图，特别的：

具体的，如果用户清仓时，其获得最大的reward，否则，用户减仓时获得的reward为而用户加仓或申购时获得的reward为用户在保持不变时，Δamt_i为0，用户获得的reward为0。

用户的行为是选择各种动作的概率，概率之和为1，即：

buy+add+stay+redu+clearn＝1----(式9)

其中，γ为对激励的衰减值，可认为为常量。对激励的衰减可以避免朝目标方向的反复迭代但无法收敛。一般的，可以设置γ为0.9。公式7通过γ值，可以实现学习过程的收敛。

例如，用户在持有10000元的某只基金时，当前的收益为10％，用户可能会持续持有，那么Q(s,a)的记录为：

Q(s,a)＝(10000,10％,(0.1,0,0.8,0,0.1))。

意思是，可能采取的行动分别为，申购0.1，加仓0，保持0.8，减仓0，清仓0.1。

假设用户此时加仓5000元，用户获得的reward为：

初始时，可以设置a＝(0.2,0.2,0.2,0.2,0.2)。

算法中，max_a′Q(s′,a′)是对在状态s′下的最大估计值，是基于Q(s,a)表对下一步行动的估计，如前例，假设下一次产品的收益为5％的状态下，用户最大概率选择保持，即max_a′Q(s′,a′)＝(0.1,0,0.8,0,0.1)。

最终的Q(s,a)表中用户采取清仓的行为对应的s即为用户的投资风险偏好。例如：

Q(s,a)＝(20000,-10％,(0,0,0,0,1))。

上述公式表示用户最大的投资风险承受能力为在投资2w元，最大可以承受10％的损失。通过强化学习模型，最终可以输出用户最大的风险承受能力，以及能承受的最大损失。

S04、通过用户风险偏好分类模型评估用户所属的投资风险偏好类型。

用户风险偏好分类模型，这个要看我们目标的分类，比如3类，可以是积极性，稳健性，保守型(50w，亏损10％，10w，亏损5％，1万，亏损5％)，当然也可以用更多的分类

经上述方法计算，可以计算出用户的投资风险承受能力。本发明实施例还提供一种风险偏好分类模型，对所有用户基于上述风险承受能力，使用聚类方法(如k-means)，本发明用的聚类方法，除了k-means，可以使用K最邻近结点算法(k-Nearest Neighboralgorithm，KNN)进行聚类，生成用户投资风险分类。记用户的投资风险为：

risk_j＝(capt_j,prof_j)----(式10)

j∈{1,2,...,N}，其中N为用户总数。

假设目标为生成K个风险类型c_k，可以得到：

risk_k＝(capt_k,prof_k)----(式11)

其中，k∈{1,2,...,K}。

其中，Nck表示一共有多少个分类。

S05、输出新用户的风险评估结果。

对于新用户，由于没有投资历史数据，本发明实施例中，对新用户采取相似计算的方法获取用户的投资风险，相似计算可以使用通用的用户属性维度，比如年龄，性别，投资年限，资产能力等。

S06、动态调整风险评估结果。

用户的投资风险偏好不是一成不变的，当用户的交易行为发生变化时，可以将用户新的交易行为数据更新至前述步骤S01至S04中，根据算法重新计算用户的投资风险偏好。

本发明实施例提出了一种基于强化学习的用户投资风险偏好评估模型，根据用户真正的投资行为，计算用户的投资风险偏好，相对当前的风险评估方法，不仅可以准确的计算用户的投资风险偏好，还能根据用户的不断投资行为更新风险偏好评分。该发明实施例可以广泛使用在各种互联网金融场景中，对给用户推荐不同风险等级的金融资产，或者防范金融风险，甚至提高用户对自己投资风险偏好的认知，都有很大的作用。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图6-a所示，本发明实施例提供的一种用户投资风险评估装置600，可以包括：原始数据获取模块601、模型参数构建模块602、风险评估模块603，其中，所述装置600包括：

原始数据获取模块601，用于从投资交易平台中获取待评估用户的交易行为数据，所述交易行为数据用于表示所述待评估用户在不同盈亏环境下采取的交易行为；

模型参数构建模块602，用于根据所述交易行为数据构建所述待评估用户的行为参数和所述待评估用户所处的环境参数；

风险评估模块603，用于使用所述行为参数和所述环境参数作为强化学习模型的输入参数，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息。

在本发明的一些实施例中，请参阅图6-b所示，所述用户投资风险评估装置600还包括：

用户偏好获取模块604，用于所述风险评估模块603使用所述行为参数和所述环境参数作为强化学习模型的输入参数，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息之后，根据所述最大投资风险承受能力信息获取所述待评估用户对应的投资风险偏好类型。

可选的，在本发明的一些实施例中，请参阅图6-c所示，所述用户偏好获取模块604，包括：

聚类分析单元6041，用于当所述强化学习模型评估出多个用户的最大投资风险承受能力信息时，根据所有用户的最大投资风险承受能力信息进行聚类分析，得到用户风险偏好分类模型，所述用户风险偏好分类模型包括：所有的投资风险偏好类型；

用户偏好识别单元6042，用于根据所述待评估用户对应的最大投资风险承受能力信息，查询所述用户风险偏好分类模型，通过所述用户风险偏好分类模型输出所述待评估用户对应的投资风险偏好类型。

在本发明的一些实施例中，所述交易行为数据包括：所述待评估用户投资的标的名称以及标的数量、每种标的的持仓数量、每种标的的收益、每种标的的交易行为类型、所述交易行为类型对应的持仓变化量、持仓变化时的收益率。

可选的，在本发明的一些实施例中，所述模型参数构建模块，具体用于根据所述每种标的的交易行为类型获取所述待评估用户对所有标的分别采取的行为参数；根据所述每种标的的持仓数量、所述每种标的的收益、所述交易行为类型对应的持仓变化量、所述持仓变化时的收益率获取所有标的对应的环境参数。

在本发明的一些实施例中，请参阅图6-d所示，所述风险评估模块603，包括：

激励函数获取单元6031，用于根据所述行为参数和所述环境参数获取所述强化学习模型的激励函数，并确定为所述激励函数配置的衰减量；

行为评估单元6032，用于通过所述强化学习模型，在所述行为参数和所述环境参数的基础上对所述待评估用户下一步可能采取的交易行为进行评估，得到所述待评估用户采取的交易行为类型的概率；

循环计算单元6033，用于通过所述强化学习模型，基于预置的学习率、所述激励函数以及相应的所述衰减量、所述待评估用户采取的交易行为类型的概率进行循环计算，直至达到模型的最优目标时，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息。

可选的，在本发明的一些实施例中，所述行为参数如下五种的交易行为类型：申请购买、加仓、持仓保持不变、减仓、清仓；

所述激励函数获取单元6031，用于当所述待评估用户处于亏损环境、且采取的交易行为类型为清仓时，获取所述激励函数的取值为最大值；或者，当所述待评估用户处于亏损环境、且采取的交易行为类型为减仓时，获取所述激励函数的取值为正向值；或者，当所述待评估用户处于亏损环境、且采取的交易行为类型为申请购买或者加仓时，获取所述激励函数的取值为负向值或者0；或者，当所述待评估用户处于亏损环境、且采取的交易行为类型为持仓保持不变时，获取所述激励函数的取值为0。

所述循环计算单元6033，用于通过所述强化学习模型确定所述待评估用户下一步可能采取的交易行为为清仓时，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息。

在本发明的一些实施例中，所述风险评估模块603，还用于使用所述行为参数和所述环境参数作为强化学习模型的输入参数，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息之后，监测所述待评估用户的交易行为数据是否有更新；当存在更新后的交易行为数据时，通过所述强化学习模型重新评估所述待评估用户对应的最大投资风险承受能力信息。

通过以上实施例对本发明实施例的描述可知，用户投资风险评估装置首先从投资交易平台中获取待评估用户的交易行为数据，该交易行为数据可以用于表示待评估用户在不同盈亏环境下采取的交易行为，然后根据交易行为数据构建待评估用户的行为参数和待评估用户所处的环境参数，最后使用行为参数和环境参数作为强化学习模型的输入参数，通过强化学习模型输出待评估用户对应的最大投资风险承受能力信息。本发明实施例中基于用户的交易行为数据可以表示出待评估用户在不同盈亏环境下采取的交易行为，即采用用户的真实交易行为来构建行为参数以及环境参数，本发明实施例采用机器学习方法中的强化学习方法构建出强化学习模型，基于该强化学习模型可以评估出用户的最大投资风险承受能力信息。相比于现有技术的问卷调查方法，本发明实施例可提高对用户的投资风险评估效率，且基于用户的真实交易行为进行评估，因此还具有评估准确的效果。

本发明实施例还提供了另一种终端，如图7所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point ofSales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图7示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图7，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图7中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。可选的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图7中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理***与处理器1080逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本发明实施例中，该终端所包括的处理器1080还具有控制执行以上由终端执行的用户投资风险评估方法流程。

图8是本发明实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processingunits，CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更可选地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作***1141，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的用户投资风险评估方法步骤可以基于该图8所示的服务器结构。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用户投资风险评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述使用所述行为参数和所述环境参数作为强化学习模型的输入参数，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息之后，所述方法还包括：

根据所述最大投资风险承受能力信息获取所述待评估用户对应的投资风险偏好类型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述最大投资风险承受能力信息获取所述待评估用户对应的投资风险偏好类型，包括：

当所述强化学习模型评估出多个用户的最大投资风险承受能力信息时，根据所有用户的最大投资风险承受能力信息进行聚类分析，得到用户风险偏好分类模型，所述用户风险偏好分类模型包括：所有的投资风险偏好类型；

根据所述待评估用户对应的最大投资风险承受能力信息，查询所述用户风险偏好分类模型，通过所述用户风险偏好分类模型输出所述待评估用户对应的投资风险偏好类型。

4.根据权利要求1所述的方法，其特征在于，所述交易行为数据包括：所述待评估用户投资的标的名称以及标的数量、每种标的的持仓数量、每种标的的收益、每种标的的交易行为类型、所述交易行为类型对应的持仓变化量、持仓变化时的收益率。

5.根据权利要求4所述的方法，其特征在于，所述根据所述交易行为数据构建所述待评估用户的行为参数和所述待评估用户所处的环境参数，包括：

根据所述每种标的的交易行为类型获取所述待评估用户对所有标的分别采取的行为参数；

根据所述每种标的的持仓数量、所述每种标的的收益、所述交易行为类型对应的持仓变化量、所述持仓变化时的收益率获取所有标的对应的环境参数。

6.根据权利要求1所述的方法，其特征在于，所述使用所述行为参数和所述环境参数作为强化学习模型的输入参数，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息，包括：

根据所述行为参数和所述环境参数获取所述强化学习模型的激励函数，并确定为所述激励函数配置的衰减量；

通过所述强化学习模型，在所述行为参数和所述环境参数的基础上对所述待评估用户下一步可能采取的交易行为进行评估，得到所述待评估用户采取的交易行为类型的概率；

通过所述强化学习模型，基于预置的学习率、所述激励函数以及相应的所述衰减量、所述待评估用户采取的交易行为类型的概率进行循环计算，直至达到模型的最优目标时，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息。

7.根据权利要求6所述的方法，其特征在于，所述行为参数如下五种的交易行为类型：申请购买、加仓、持仓保持不变、减仓、清仓；

所述根据所述行为参数和所述环境参数获取所述强化学习模型的激励函数，包括：

当所述待评估用户处于亏损环境、且采取的交易行为类型为清仓时，获取所述激励函数的取值为最大值；或者，

当所述待评估用户处于亏损环境、且采取的交易行为类型为减仓时，获取所述激励函数的取值为正向值；或者，

当所述待评估用户处于亏损环境、且采取的交易行为类型为申请购买或者加仓时，获取所述激励函数的取值为负向值或者0；或者，

当所述待评估用户处于亏损环境、且采取的交易行为类型为持仓保持不变时，获取所述激励函数的取值为0。

8.根据权利要求6所述的方法，其特征在于，所述行为参数如下五种的交易行为类型：申请购买、加仓、持仓保持不变、减仓、清仓；

所述直至达到模型的最优目标时，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息，包括：

通过所述强化学习模型确定所述待评估用户下一步可能采取的交易行为为清仓时，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述使用所述行为参数和所述环境参数作为强化学习模型的输入参数，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息之后，所述方法还包括：

监测所述待评估用户的交易行为数据是否有更新；

当存在更新后的交易行为数据时，通过所述强化学习模型重新评估所述待评估用户对应的最大投资风险承受能力信息。

10.一种用户投资风险评估装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述用户投资风险评估装置还包括：

用户偏好获取模块，用于所述风险评估模块使用所述行为参数和所述环境参数作为强化学习模型的输入参数，通过所述强化学习模型输出所述待评估用户对应的最大投资风险承受能力信息之后，根据所述最大投资风险承受能力信息获取所述待评估用户对应的投资风险偏好类型。

12.根据权利要求11所述的装置，其特征在于，所述用户偏好获取模块，包括：

聚类分析单元，用于当所述强化学习模型评估出多个用户的最大投资风险承受能力信息时，根据所有用户的最大投资风险承受能力信息进行聚类分析，得到用户风险偏好分类模型，所述用户风险偏好分类模型包括：所有的投资风险偏好类型；

用户偏好识别单元，用于根据所述待评估用户对应的最大投资风险承受能力信息，查询所述用户风险偏好分类模型，通过所述用户风险偏好分类模型输出所述待评估用户对应的投资风险偏好类型。

13.根据权利要求10所述的装置，其特征在于，所述交易行为数据包括：所述待评估用户投资的标的名称以及标的数量、每种标的的持仓数量、每种标的的收益、每种标的的交易行为类型、所述交易行为类型对应的持仓变化量、持仓变化时的收益率。

14.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9任意一项所述的方法。

15.一种用户投资风险评估装置，其特征在于，所述用户投资风险评估装置包括：处理器和存储器；

所述存储器，用于存储指令；

所述处理器，用于执行所述存储器中的所述指令，执行如权利要求1至9中任一项所述的方法。