CN112381428A

CN112381428A - 基于强化学习的业务分配方法、装置、设备及存储介质

Info

Publication number: CN112381428A
Application number: CN202011298673.1A
Authority: CN
Inventors: 朱星华; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-02-19
Anticipated expiration: 2040-11-19
Also published as: CN112381428B; WO2021208720A1

Abstract

本发明涉及人工智能技术领域，提供一种基于强化学习的业务分配方法、装置、设备及存储介质，用于提高业务分配的准确性。基于强化学习的业务分配方法包括：对基于多个参与端的机构私密数据的特征向量信息进行选择概率预测得到选择概率；通过选择概率对特征向量信息进行采样得到采样梯度信息；根据采样梯度信息，对预置业务评估联邦模型的模型参数进行更新，得到更新联邦评估模型，并通过更新联邦评估模型计算奖励值；通过预置评估器和奖励值，对特征向量信息进行价值评估，得到参与者贡献度；根据参与者贡献度，对多个参与端进行业务分配，得到参与者业务分配信息。此外，本发明还涉及区块链技术，机构私密数据可存储于区块链中。

Description

基于强化学习的业务分配方法、装置、设备及存储介质

技术领域

本发明涉及人工智能的机器学习领域，尤其涉及一种基于强化学习的业务分配方法、装置、设备及存储介质。

背景技术

随着互联网技术和业务的发展，各企业、机构对业务信息的管控和调用也成为了各企业、机构的着重关注点，例如：根据企业的所属的所有子企业提供的业务信息，对各子企业进行业务分配。

目前，为了更好地根据企业的所属的所有子企业提供的业务信息，对各子企业进行业务分配，一般是根据子企业提供的业务信息的数据量对子企业的业务贡献度进行评定，根据评定的业务贡献度对子企业进行业务分配。

由于不同子企业所提供的业务信息的质量存在差异，仅从子企业提供的业务信息的数据量评估各子企业的业务贡献度不仅缺乏说服力的，还容易导致子企业在最大化己方利益为导向的目标下，以大量低质量的业务信息获取较大的业务贡献度，对总体业务分配的准确性造成了较大不良影响，导致业务分配的准确性较低。

发明内容

本发明提供一种基于强化学习的业务分配方法、装置、设备及存储介质，用于提高业务分配的准确性。

本发明第一方面提供了一种基于强化学习的业务分配方法，包括：

获取基于多个参与端的机构私密数据的特征向量信息，并通过预置评估器，对所述特征向量信息进行选择概率预测，得到各参与端对应的选择概率，所述预置评估器用于评估各参与端所提供的特征向量信息的梯度价值；

通过预置采样器和所述各参与端对应的选择概率，对所述特征向量信息进行采样，得到各参与端对应的采样梯度信息；

根据所述各参与端对应的采样梯度信息，对预置业务评估联邦模型的模型参数进行更新，得到更新联邦评估模型，并通过所述更新联邦评估模型计算奖励值，所述奖励值用于指示所述特征向量信息对于所述更新联邦评估模型的回报累计值；

通过所述预置评估器和所述奖励值，对所述特征向量信息进行价值评估，得到各参与端对应的参与者贡献度；

根据所述各参与端对应的参与者贡献度，对所述多个参与端进行业务分配，得到参与者业务分配信息。

可选的，在本发明第一方面的第一种实现方式中，所述通过预置采样器和所述各参与端对应的选择概率，对所述特征向量信息进行采样，得到各参与端对应的采样梯度信息，包括：

通过预置采样器中的基于多项式分布算法，按照所述各参与端对应的选择概率，对所述特征向量信息进行计算，得到各参与端对应的选择向量，所述特征向量信息包括各参与端的模型梯度信息；

当所述各参与端对应的选择向量为预设值时，根据所述各参与端对应的选择向量，对所述各参与端的模型梯度信息进行采样，得到各参与端对应的采样梯度信息。

可选的，在本发明第一方面的第二种实现方式中，所述通过所述预置评估器和所述奖励值，对所述特征向量信息进行价值评估，得到各参与端对应的参与者贡献度，包括：

通过预置的蒙特卡洛策略梯度算法，对所述奖励值和所述选择向量进行损失函数计算，得到所述预置评估器的损失函数；

通过所述预置评估器的损失函数，对所述预置评估器进行训练，直至所述损失函数收敛，得到目标评估器；

通过所述目标评估器，对所述特征向量信息进行价值评估，得到各参与端对应的参与者贡献度。

可选的，在本发明第一方面的第三种实现方式中，所述获取基于多个参与端的机构私密数据的特征向量信息，并通过预置评估器，对所述特征向量信息进行选择概率预测，得到各参与端对应的选择概率，包括：

分别向多个参与端发送模型梯度计算指令，以使得各参与端根据所述模型梯度计算指令获取参与端的机构私密数据；

通过所述参与端的机构私密数据，对预置参与者分配模型进行训练，并通过预置的梯度下降算法，计算经过训练后的预置参与者分配模型的参数梯度，得到各参与端对应的特征向量信息，所述机构私密数据包括医疗机构的医疗私密数据、金融机构的金融业务私密数据和保险机构的保险私密数据中的至少一种；

接收各参与端发送的各参与端对应的特征向量信息，并通过预置评估器中的梯度价值函数，对所述各参与端对应的特征向量信息进行选择概率计算，得到各参与端对应的选择概率。

可选的，在本发明第一方面的第四种实现方式中，所述通过所述更新联邦评估模型计算奖励值，包括：

获取所述特征向量信息的验证集数据，通过所述更新联邦模型对所述验证集数据进行验证，得到验证结果；

计算所述验证结果的验证损失值，以及预设时段的移动平均损失值；

对所述验证损失值和所述移动平均损失值进行差值计算，得到奖励值。

可选的，在本发明第一方面的第五种实现方式中，所述根据所述各参与端对应的参与者贡献度，对所述多个参与端进行业务分配，得到参与者业务分配信息，包括：

获取所述各参与端对应的参与者贡献度的贡献度占比值，并判断所述贡献度占比值是否大于预设阈值；

若所述贡献度占比值大于预设阈值，则调用预置的分配策略，对所述多个参与端进行业务分配，得到参与者业务分配信息；

若所述贡献度占比值小于或等于预设阈值，则根据所述贡献度占比值，对所述多个参与端进行业务分配，得到参与者业务分配信息。

可选的，在本发明第一方面的第六种实现方式中，所述根据所述各参与端对应的参与者贡献度，对所述多个参与端进行业务分配，得到参与者业务分配信息之后，还包括：

获取所述参与者业务分配信息的异常信息，根据所述异常信息对所述参与者业务分配信息进行更新，并对所述各参与端对应的选择概率的确定策略进行优化。

本发明第二方面提供了一种基于强化学习的业务分配装置，包括：

预测模块，用于获取基于多个参与端的机构私密数据的特征向量信息，并通过预置评估器，对所述特征向量信息进行选择概率预测，得到各参与端对应的选择概率，所述预置评估器用于评估各参与端所提供的特征向量信息的梯度价值；

采样模块，用于通过预置采样器和所述各参与端对应的选择概率，对所述特征向量信息进行采样，得到各参与端对应的采样梯度信息；

更新模块，用于根据所述各参与端对应的采样梯度信息，对预置业务评估联邦模型的模型参数进行更新，得到更新联邦评估模型，并通过所述更新联邦评估模型计算奖励值，所述奖励值用于指示所述特征向量信息对于所述更新联邦评估模型的回报累计值；

评估模块，用于通过所述预置评估器和所述奖励值，对所述特征向量信息进行价值评估，得到各参与端对应的参与者贡献度；

分配模块，用于根据所述各参与端对应的参与者贡献度，对所述多个参与端进行业务分配，得到参与者业务分配信息。

可选的，在本发明第二方面的第一种实现方式中，所述采样模块包括：

计算单元，用于通过预置采样器中的基于多项式分布算法，按照所述各参与端对应的选择概率，对所述特征向量信息进行计算，得到各参与端对应的选择向量，所述特征向量信息包括各参与端的模型梯度信息；

采样单元，用于当所述各参与端对应的选择向量为预设值时，根据所述各参与端对应的选择向量，对所述各参与端的模型梯度信息进行采样，得到各参与端对应的采样梯度信息。

可选的，在本发明第二方面的第二种实现方式中，所述评估模块具体用于：

可选的，在本发明第二方面的第三种实现方式中，所述预测模块具体用于：

可选的，在本发明第二方面的第四种实现方式中，所述更新模块具体用于：

可选的，在本发明第二方面的第五种实现方式中，所述分配模块具体用于：

可选的，在本发明第二方面的第六种实现方式中，所述基于强化学习的业务分配装置，还包括：

更新优化模块，用于获取所述参与者业务分配信息的异常信息，根据所述异常信息对所述参与者业务分配信息进行更新，并对所述各参与端对应的选择概率的确定策略进行优化。

本发明第三方面提供了一种基于强化学习的业务分配设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于强化学习的业务分配设备执行上述的基于强化学习的业务分配方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于强化学习的业务分配方法。

本发明提供的技术方案中，获取基于多个参与端的机构私密数据的特征向量信息，并通过预置评估器，对特征向量信息进行选择概率预测，得到各参与端对应的选择概率；通过预置采样器和各参与端对应的选择概率，对特征向量信息进行采样，得到各参与端对应的采样梯度信息；根据各参与端对应的采样梯度信息，对预置业务评估联邦模型的模型参数进行更新，得到更新联邦评估模型，并通过更新联邦评估模型计算奖励值；通过预置评估器和奖励值，对特征向量信息进行价值评估，得到各参与端对应的参与者贡献度；根据各参与端对应的参与者贡献度，对多个参与端进行业务分配，得到参与者业务分配信息。本发明实施例中，通过根据预置评估器输出的选择概率对各基于多个参与端的机构私密数据的特征向量信息进行选择性采用，并根据各参与端对应的采样梯度信息，对预置业务评估联邦模型的模型参数进行更新，通过预置评估器和奖励值，对特征向量信息进行价值评估，根据各参与端对应的参与者贡献度，对多个参与端进行业务分配，降低了计算的复杂度，提高了参与者贡献度评估的准确性，提高了参与者贡献度评估的效率，进而提高了业务分配的准确性。

附图说明

图1为本发明实施例中基于强化学习的业务分配方法的一个实施例示意图；

图2为本发明实施例中基于强化学习的业务分配方法的另一个实施例示意图；

图3为本发明实施例中基于强化学习的业务分配装置的一个实施例示意图；

图4为本发明实施例中基于强化学习的业务分配装置的另一个实施例示意图；

图5为本发明实施例中基于强化学习的业务分配设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于强化学习的业务分配方法、装置、设备及存储介质，提高了业务分配的准确性。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于强化学习的业务分配方法的一个实施例包括：

101、获取基于多个参与端的机构私密数据的特征向量信息，并通过预置评估器，对特征向量信息进行选择概率预测，得到各参与端对应的选择概率，预置评估器用于评估各参与端所提供的特征向量信息的梯度价值。

可以理解的是，本发明的执行主体可以为基于强化学习的业务分配装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

其中，多个参与端包括但不限于医疗机构、保险机构和金融机构对应的终端或服务器，例如：金融机构中的单位、银行或其他涉及到金融的机构或中心对应的终端或服务器。多个参与端可为相同类型机构对应的终端或服务器，例如：多个参与端均为金融机构对应的终端或服务器；多个参与端也可为不同类型机构对应的终端或服务器，例如：多个参与端的数量为3，一个参与端为金融机构对应的终端或服务器，另一个参与端为保险机构对应的终端或服务器，其余一个参与端为医疗机构对应的终端或服务器。

机构私密数据为参与端的非共享且经过加密的私密数据，例如：医疗机构的医疗私密数据，金融机构的各项金融业务的私密数据。特征向量信息可为各参与端对于根据机构私密数据对模型进行梯度下降处理时的模型参数对应的梯度信息，也可为各参与端的机构私密数据，在预置业务评估联邦模型对于所有机构私密数据进行某项业务处理时的占比。

服务器预先根据多个参与端的机构私密数据，构建预置业务评估联邦模型。服务器接收多个参与端分别发送的基于机构私密数据的特征向量信息，调用预置评估器，该预置评估器为深度神经网络，该深度神经网络包括比例选择算法，通过比例选择算法，计算特征向量信息中各特征向量信息的适应度，根据各特征向量信息的适应度，计算各特征向量信息被遗传到下一代群体的累计概率，生成一个[0，1]区间内均匀分布的随机数，根据该随机数对特征向量信息进行选择，对各参与端被选中的多个特征向量信息的概率值进行归一化处理，得到各参与端对应的选择概率。其中，预置评估器用于评估各参与者提供的梯度价值，梯度价值为梯度信息对于模型训练所起作用的程度，或者为各参与者的机构私密数据在预置业务评估联邦模型对于所有机构私密数据的某业务处理方向所起作用的程度。

102、通过预置采样器和各参与端对应的选择概率，对特征向量信息进行采样，得到各参与端对应的采样梯度信息。

其中，特征向量信息为梯度信息，服务器调用预置采样器中的确定性算法，生成梯度信息在[0，1]之间的伪随机数序列，按照各参与端对应的选择概率，对伪随机数序列进行随机采样，得到各参与端对应的采样梯度信息；服务器调用预置采样器按梯度信息的时间顺序将所有的或各参与端对应的梯度信息分类成多份数据，按照各参与端对应的选择概率从每份数据中抽取对应的数据，得到各参与端对应的采样梯度信息；服务器也可调用预置采样器，将所有的梯度信息分类成预设类别(预设类别的数量包括一个或一个以上)，得到多个类别的梯度信息，按照各参与端对应的选择概率从每个类别的梯度信息中随机抽取对应的梯度信息，并将抽取的多个类别中的梯度信息组合起来，得到各参与端对应的采样梯度信息。

103、根据各参与端对应的采样梯度信息，对预置业务评估联邦模型的模型参数进行更新，得到更新联邦评估模型，并通过更新联邦评估模型计算奖励值，奖励值用于指示特征向量信息对于更新联邦评估模型的回报累计值。

服务器将各参与端对应的采样梯度信息进行归一化处理，得到综合梯度信息，根据综合梯度信息，对预置业务评估联邦模型的模型参数进行不断的调整和更新，从而得到更新联邦评估模型；服务器也可通过预置的注意力机制，对各参与端对应的采样梯度信息进行注意力计算，得到各参与端对应的注意力梯度信息，通过各参与端对应的注意力梯度信息，对预置业务评估联邦模型的模型参数进行不断的调整和更新，从而得到更新联邦评估模型，以能够保证所有的采样梯度信息的特征，又能够有所偏重地对预置业务评估联邦模型的模型参数进行更新，得到更新联邦评估模型。

服务器在接收多个参与端分别的机构私密数据，按照预设比例将机构私密数据划分为机构数据验证集，根据上述获取采样梯度信息的执行过程，获取机构数据验证集对应的采样梯度信息，从而得到特征向量信息的验证集数据，通过验证集数据对更新联邦评估模型进行验证，得到验证联邦评估模型，计算验证联邦评估模型的验证损失值，以及预设时段的移动平均损失值；对验证损失值和移动平均损失值进行差值计算，得到奖励值，其中，奖励值可为预置业务评估联邦模型在训练时的回报总和(可包括收益信号或信息增益)，奖励值包括正奖励值和负奖励值，奖励值用于获取最优策略和/或最佳路径，奖励值可为预置业务评估联邦模型对于所有机构私密数据进行某业务处理的最佳策略和/或最佳路径的回报累计值，例如：保险订单金额数据项目分配的最佳策略的回报累计值。

104、通过预置评估器和奖励值，对特征向量信息进行价值评估，得到各参与端对应的参与者贡献度。

服务器获取业务贡献度影响因子，通过预置评估器、奖励值和业务贡献度影响因子，对特征向量信息的业务贡献价值进行评估，得到各参与端对应的参与贡献度，该参与者贡献度可为各参与端的机构私密数据对于预置业务评估联邦模型训练时的贡献度，也可为各参与端的机构私密数据在预置业务评估联邦模型对所有机构私密数据有效而准确地进行业务处理时所起的贡献度，例如，在预置业务评估联邦模型对金融收益数据(各即参与端的机构私密数据)进行预设时段的准确预测中，各参与者的机构私密数据所其到的作用，以及对其准确度所起的贡献度。其中，业务贡献度影响因子为计算业务贡献度的影响因素，例如：以业务为训练一个基于联邦学习的保险订单金额数据预测模型为例说明，则业务贡献度影响因子为保险订单的准确性、提供的信息梳理和业务类型的重要度等。

105、根据各参与端对应的参与者贡献度，对多个参与端进行业务分配，得到参与者业务分配信息。

服务器可通过判断各参与端对应的参与者贡献度是否小于预置的目标值，若是，则剔除该参与端，该参与端不参与业务分配，若否，则按照各参与端对应的参与者贡献度，对多个参与端进行业务分配，得到参与者业务分配信息。其中，参与者业务分配信息可为基于机构私密数据的贡献度的收益分配、奖励分配和/或优先级设置等。

本发明实施例中，通过根据预置评估器输出的选择概率对各基于多个参与端的机构私密数据的特征向量信息进行选择性采用，并根据各参与端对应的采样梯度信息，对预置业务评估联邦模型的模型参数进行更新，通过预置评估器和奖励值，对特征向量信息进行价值评估，根据各参与端对应的参与者贡献度，对多个参与端进行业务分配，降低了计算的复杂度，提高了参与者贡献度评估的准确性，提高了参与者贡献度评估的效率，进而提高了业务分配的准确性。

请参阅图2，本发明实施例中基于强化学习的业务分配方法的另一个实施例包括：

201、获取基于多个参与端的机构私密数据的特征向量信息，并通过预置评估器，对特征向量信息进行选择概率预测，得到各参与端对应的选择概率，预置评估器用于评估各参与端所提供的特征向量信息的梯度价值。

具体地，服务器分别向多个参与端发送模型梯度计算指令，以使得各参与端根据模型梯度计算指令获取参与端的机构私密数据；通过参与端的机构私密数据，对预置参与者分配模型进行训练，并通过预置的梯度下降算法，计算经过训练后的预置参与者分配模型的参数梯度，得到各参与端对应的特征向量信息，机构私密数据包括医疗机构的医疗私密数据、金融机构的金融业务私密数据和保险机构的保险私密数据中的至少一种；接收各参与端发送的各参与端对应的特征向量信息，并通过预置评估器中的梯度价值函数，对各参与端对应的特征向量信息进行选择概率计算，得到各参与端对应的选择概率。

例如，以机构私密数据为金融业务私密数据为例说明，多个参与端为金融机构1对应的终端1、金融机构2对应的终端2和金融3对应的终端3，服务器分别向终端1、终端2和终端3发送模型梯度计算指令，终端1根据模型梯度计算指令从数据库中提取对应的金融业务私密数据1，并将金融业务私密数据1输入至预置参与者分配模型1，通过预置参与者分配模型1对金融业务私密数据1进行业务分配处理(即训练)，通过预置的梯度下降算法，计算经过业务分配处理(即训练)的预置参与者分配模型1的参数梯度，得到终端1对应的特征向量信息1，终端1将特征向量信息1发送至服务器，服务器接收该特征向量信息1后，将该特征向量信息输入梯度价值函数中，通过提取价值函数计算得到终端1对应的选择概率1，梯度价值函数具体如下：w＝h_θ(δ)，其中，w表示选择概率，h_θ(δ)为梯度价值函数，δ表示特征向量信息，φ表示可训练参数，依次可得终端2对应的选择概率2和终端3对应的选择概率3。

202、通过预置采样器中的基于多项式分布算法，按照各参与端对应的选择概率，对特征向量信息进行计算，得到各参与端对应的选择向量，特征向量信息包括各参与端的模型梯度信息。

服务器通过预置采样器中的基于多项式分布算法中的概率公式，按照各参与端对应的选择概率对各参与端的模型梯度信息进行计算，得到各参与端对应的选择向量ζi＝[ζ1，ζ2，ζ3，……ζn]，其中，ζi＝{0，1}且P(ζi＝1)＝w，P表示概率值，w表示选择概率。

203、当各参与端对应的选择向量为预设值时，根据各参与端对应的选择向量，对各参与端的模型梯度信息进行采样，得到各参与端对应的采样梯度信息。

本实施例中，预设值优选为1，服务器判断各参与端对应的选择向量是否为预设值(即ζi＝1)，若是，则根据各参与端对应的选择向量对各参与端的模型梯度信息进行随机采样或***采样或分层采样，从而得到各参与端对应的采样梯度信息；若否，则不对各参与端的模型梯度信息进行采样，循环执行上述获取各参与端对应的选择向量的各执行过程来重新获取选择向量，直至重新获取的选择向量为预设值(即ζi＝1)，根据重新获取的各参与端对应的选择向量对各参与端的模型梯度信息进行采样，得到各参与端对应的采样梯度信息。

204、根据各参与端对应的采样梯度信息，对预置业务评估联邦模型的模型参数进行更新，得到更新联邦评估模型，并通过更新联邦评估模型计算奖励值，奖励值用于指示特征向量信息对于更新联邦评估模型的回报累计值。

具体地，服务器获取特征向量信息的验证集数据，通过更新联邦模型对验证集数据进行验证，得到验证结果；计算验证结果的验证损失值，以及预设时段的移动平均损失值；对验证损失值和移动平均损失值进行差值计算，得到奖励值。

服务器在接收多个参与端分别的机构私密数据的特征向量信息时，按照预设比例将机构私密数据的特征向量信息划分为验证集数据，通过更新联邦模型对验证集数据进行验证，得到验证结果，通过预置的损失值计算公式，计算验证结果的验证损失值，预置的损失值计算公式具体如下：

其中，l_v表示验证损失值，v表示数据属于验证集，即验证结果，M表示验证集数据的所有数据项目编号，k表示表示第k个数据项目，

表示所需的损失函数，包括均方误差(mean square error，MSE)函数、均方根误差(root-mean-square error，RMSE)函数和交叉熵损失函数等，f_θ表示更新联邦评估模型，x表示输入数据，即验证集数据，y表示验证集数据相应的标签；服务器通过预置公式计算预设时段的移动平均损失值，预置公式具体如下：

l_v表示验证损失值，T表示预设时段的移动平均窗口长度，Δ表示预设时段的移动平均基准；将验证损失值减去移动平均损失值，得到奖励值。

205、通过预置评估器和奖励值，对特征向量信息进行价值评估，得到各参与端对应的参与者贡献度。

具体地，服务器通过预置的蒙特卡洛策略梯度算法，对奖励值和选择向量进行损失函数计算，得到预置评估器的损失函数；通过预置评估器的损失函数，对预置评估器进行训练，直至损失函数收敛，得到目标评估器；通过目标评估器，对特征向量信息进行价值评估，得到各参与端对应的参与者贡献度。

服务器通过蒙特卡洛策略梯度reinforce算法中的计算公式，对奖励值和选择向量进行损失函数计算，得到预置评估器的损失函数，蒙特卡洛策略梯度reinforce算法中的计算公式具体如下：

其中，r表示奖励值，N表示选择向量的数量，i表示第i个选择向量，s_i表示选择向量，δ_i表示采样梯度信息，h_φ(δ_i)表示梯度价值函数。服务器通过预置评估器的损失函数，对预置评估器的可训练参数φ进行更新，以实现对预置评估器的训练，得到目标评估器，对可训练参数φ更新的公式如下：

其中，β表示学习率，l_h表示预置评估器的损失函数。服务器通过目标评估器，对特征向量信息进行价值评估，得到各参与端对应的参与者贡献度。

206、根据各参与端对应的参与者贡献度，对多个参与端进行业务分配，得到参与者业务分配信息。

具体地，服务器获取各参与端对应的参与者贡献度的贡献度占比值，并判断贡献度占比值是否大于预设阈值；若贡献度占比值大于预设阈值，则调用预置的分配策略，对多个参与端进行业务分配，得到参与者业务分配信息；若贡献度占比值小于或等于预设阈值，则根据贡献度占比值，对多个参与端进行业务分配，得到参与者业务分配信息。

其中，服务器判断各参与端对应的参与者贡献度是否小于预置贡献度，若是，则剔除对应的小于预置贡献度的参与者贡献度，计算剔除后的各参与端对应的参与者贡献度分别与总的参与者贡献度和值之间的比例，得到各参与端对应的参与者贡献度的贡献度占比值，若否，则计算各参与端对应的参与者贡献度分别与总的参与者贡献度之间的比例，得到各参与端对应的参与者贡献度的贡献度占比值。

例如，以业务分配为报酬分配，参与者业务分配信息为参与者报酬分配信息为例说明，该报酬分配对应各参与端的特征向量信息对更新联邦评估模型的更新的贡献度，各参与端对应的参与者贡献度分别为0.03(参与端1)、0.24(参与端2)、0.40(参与端3)和0.33(参与端4)，预置贡献度为0.20，预设阈值为0.40，报酬分配的总金额为100万，则剔除0.03，得到参与者业务分配信息1(参与端1获得报酬0元)，并得到0.24(参与端2)、0.40(参与端3)和0.33(参与端4)分别对应的参与者贡献度的贡献度占比值为0.247(参与端2)、0.412(参与端3)和0.34(参与端4)，仅有0.412大于预设阈值0.40，则调用预置的分配策略对参与端3进行分配(100万*0.412+10万＝51.2万)，得到参与者业务分配信息3(参与端3获得报酬51.2元)，该预置的分配策略为除了按照报酬分配的总金额中贡献度占比值对应的金额外，还额外分配10万，则根据贡献度占比值，对参与端2和参与端4进行业务分配(参与端2＝0.247*100万＝24.7万，参与端4＝0.34*100万＝34.0万)，得到参与者业务分配信息2(参与端2获得报酬24.7元)和参与者业务分配信息4(参与端4获得报酬34.0元)。

具体地，服务器根据各参与端对应的参与者贡献度，对多个参与端进行业务分配，得到参与者业务分配信息之后，还获取参与者业务分配信息的异常信息，根据异常信息对参与者业务分配信息进行更新，并对各参与端对应的选择概率的确定策略进行优化。

服务器将参与者业务分配信息加密后发送至审核端，由审核端对参与者业务分配信息进行解密和审核，若该参与者业务分配信息存在异常信息，则将异常信息反馈服务器，服务器根据异常信息匹配对应的优化机制，该优化机制包括优化算法、优化策略、优化的执行过程和优化的执行脚本，通过优化机制对参与者业务分配信息中的异常信息进行修正(更新)，并通过优化机制对各参与端对应的选择概率的确定策略进行优化，其中，确定策略包括各参与端对应的选择概率的模型选取、模型计算和特征向量信息的选取等，通过根据异常信息对参与者业务分配信息进行更新，并对各参与端对应的选择概率的确定策略进行优化，提升了基于强化学习的业务分配方法的执行过程的计算便捷度、计算准确度和计算效率，进而提高了业务分配的准确性。

上面对本发明实施例中基于强化学习的业务分配方法进行了描述，下面对本发明实施例中基于强化学习的业务分配装置进行描述，请参阅图3，本发明实施例中基于强化学习的业务分配装置一个实施例包括：

预测模块301，用于获取基于多个参与端的机构私密数据的特征向量信息，并通过预置评估器，对特征向量信息进行选择概率预测，得到各参与端对应的选择概率，预置评估器用于评估各参与端所提供的特征向量信息的梯度价值；

采样模块302，用于通过预置采样器和各参与端对应的选择概率，对特征向量信息进行采样，得到各参与端对应的采样梯度信息；

更新模块303，用于根据各参与端对应的采样梯度信息，对预置业务评估联邦模型的模型参数进行更新，得到更新联邦评估模型，并通过更新联邦评估模型计算奖励值，奖励值用于指示特征向量信息对于更新联邦评估模型的回报累计值；

评估模块304，用于通过预置评估器和奖励值，对特征向量信息进行价值评估，得到各参与端对应的参与者贡献度；

分配模块305，用于根据各参与端对应的参与者贡献度，对多个参与端进行业务分配，得到参与者业务分配信息。

上述基于强化学习的业务分配装置中各个模块的功能实现与上述基于强化学习的业务分配方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

请参阅图4，本发明实施例中基于强化学习的业务分配装置的另一个实施例包括：

其中，采样模块302具体包括：

计算单元3021，用于通过预置采样器中的基于多项式分布算法，按照各参与端对应的选择概率，对特征向量信息进行计算，得到各参与端对应的选择向量，特征向量信息包括各参与端的模型梯度信息；

采样单元3022，用于当各参与端对应的选择向量为预设值时，根据各参与端对应的选择向量，对各参与端的模型梯度信息进行采样，得到各参与端对应的采样梯度信息；

可选的，评估模块304还可以具体用于：

通过预置的蒙特卡洛策略梯度算法，对奖励值和选择向量进行损失函数计算，得到预置评估器的损失函数；

通过预置评估器的损失函数，对预置评估器进行训练，直至损失函数收敛，得到目标评估器；

通过目标评估器，对特征向量信息进行价值评估，得到各参与端对应的参与者贡献度。

可选的，预测模块301还可以具体用于：

分别向多个参与端发送模型梯度计算指令，以使得各参与端根据模型梯度计算指令获取参与端的机构私密数据；

通过参与端的机构私密数据，对预置参与者分配模型进行训练，并通过预置的梯度下降算法，计算经过训练后的预置参与者分配模型的参数梯度，得到各参与端对应的特征向量信息，机构私密数据包括医疗机构的医疗私密数据、金融机构的金融业务私密数据和保险机构的保险私密数据中的至少一种；

接收各参与端发送的各参与端对应的特征向量信息，并通过预置评估器中的梯度价值函数，对各参与端对应的特征向量信息进行选择概率计算，得到各参与端对应的选择概率。

可选的，更新模块303还可以具体用于：

获取特征向量信息的验证集数据，通过更新联邦模型对验证集数据进行验证，得到验证结果；

计算验证结果的验证损失值，以及预设时段的移动平均损失值；

对验证损失值和移动平均损失值进行差值计算，得到奖励值。

可选的，分配模块305还可以具体用于：

获取各参与端对应的参与者贡献度的贡献度占比值，并判断贡献度占比值是否大于预设阈值；

若贡献度占比值大于预设阈值，则调用预置的分配策略，对多个参与端进行业务分配，得到参与者业务分配信息；

若贡献度占比值小于或等于预设阈值，则根据贡献度占比值，对多个参与端进行业务分配，得到参与者业务分配信息。

可选的，基于强化学习的业务分配装置，还包括：

更新优化模块306，用于获取参与者业务分配信息的异常信息，根据异常信息对参与者业务分配信息进行更新，并对各参与端对应的选择概率的确定策略进行优化。

上述基于强化学习的业务分配装置中各模块和各单元的功能实现与上述基于强化学习的业务分配方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

上面图3和图4从模块化功能实体的角度对本发明实施例中的基于强化学习的业务分配装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于强化学习的业务分配设备进行详细描述。

图5是本发明实施例提供的一种基于强化学习的业务分配设备的结构示意图，该基于强化学习的业务分配设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于强化学习的业务分配设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在基于强化学习的业务分配设备500上执行存储介质530中的一系列指令操作。

基于强化学习的业务分配设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作***531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的基于强化学习的业务分配设备结构并不构成对基于强化学习的业务分配设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行基于强化学习的业务分配方法的步骤。

进一步地，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于强化学习的业务分配方法，其特征在于，所述基于强化学习的业务分配方法包括：

2.根据权利要求1所述的基于强化学习的业务分配方法，其特征在于，所述通过预置采样器和所述各参与端对应的选择概率，对所述特征向量信息进行采样，得到各参与端对应的采样梯度信息，包括：

3.根据权利要求2所述的基于强化学习的业务分配方法，其特征在于，所述通过所述预置评估器和所述奖励值，对所述特征向量信息进行价值评估，得到各参与端对应的参与者贡献度，包括：

4.根据权利要求1所述的基于强化学习的业务分配方法，其特征在于，所述获取基于多个参与端的机构私密数据的特征向量信息，并通过预置评估器，对所述特征向量信息进行选择概率预测，得到各参与端对应的选择概率，包括：

5.根据权利要求1所述的基于强化学习的业务分配方法，其特征在于，所述通过所述更新联邦评估模型计算奖励值，包括：

6.根据权利要求1所述的基于强化学习的业务分配方法，其特征在于，所述根据所述各参与端对应的参与者贡献度，对所述多个参与端进行业务分配，得到参与者业务分配信息，包括：

若所述贡献度占比值大于预设阈值，则调用预置的分配策略，对所述多个参与端进行业务分配，得到第一参与者业务分配信息；

若所述贡献度占比值小于或等于预设阈值，则根据所述贡献度占比值，对所述多个参与端进行业务分配，得到第二参与者业务分配信息。

7.根据权利要求1-6中任一项所述的基于强化学习的业务分配方法，其特征在于，所述根据所述各参与端对应的参与者贡献度，对所述多个参与端进行业务分配，得到参与者业务分配信息之后，还包括：

8.一种基于强化学习的业务分配装置，其特征在于，所述基于强化学习的业务分配装置包括：

9.一种基于强化学习的业务分配设备，其特征在于，所述基于强化学习的业务分配设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于强化学习的业务分配设备执行如权利要求1-7中任意一项所述的基于强化学习的业务分配方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述基于强化学习的业务分配方法。