CN112365007A

CN112365007A - 模型参数确定方法、装置、设备及存储介质

Info

Publication number: CN112365007A
Application number: CN202011255673.3A
Authority: CN
Inventors: 黄安埠
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-02-12
Anticipated expiration: 2040-11-11
Also published as: CN112365007B

Abstract

本发明公开了一种模型参数确定方法、装置、设备及存储介质，所述方法包括：获取多个客户终端分别发送的模型参数；其中，每一客户终端发送的模型参数为所述客户终端根据本地训练样本对全局模型进行训练后得到的模型参数；对于获取到的每一客户终端的模型参数，通过测试数据集确定所述模型参数对应的准确率；根据每一客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，其中，所述模型权重与所述准确率为负相关关系；根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行聚合，得到更新后的全局模型参数，本发明能够重点对性能不好的模型进行优化，提高处理小客户终端的数据时的准确率，提升模型的整体性能。

Description

模型参数确定方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种模型参数确定方法、装置、设备及存储介质。

背景技术

联邦机器学习(Federated machine learning)，又称联邦学习(FederatedLearning)，能够在数据不出本地的前提下，联合各方进行数据使用和协同建模，成为隐私保护计算中的一种常用方法。

在联邦学***。模型在处理大客户终端的数据时具有较佳的准确性，但是在处理小客户终端的数据时准确性较差，导致模型的整体性能较差。

发明内容

本发明的主要目的在于提供一种模型参数确定方法、装置、设备及存储介质，旨在解决不同客户终端的数据量差异较大导致的模型整体性能较差的技术问题。

为实现上述目的，本发明提供一种模型参数确定方法，所述方法包括：

获取多个客户终端分别发送的模型参数；其中，每一客户终端发送的模型参数为所述客户终端根据本地训练样本对全局模型进行训练后得到的模型参数；

对于获取到的每一客户终端的模型参数，通过测试数据集确定所述模型参数对应的准确率；

根据每一客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，其中，所述模型权重与所述准确率为负相关关系；

根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行聚合，得到更新后的全局模型参数。

可选的，根据每一客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，包括：

获取各个客户终端的样本数量占比；其中，每一客户终端对应的样本数量占比为所述客户终端的本地训练样本的数量与所述多个客户终端的本地训练样本的总数量的比值；

对于每一客户终端，根据所述客户终端对应的样本数量占比以及所述客户终端的模型参数对应的准确率，确定所述客户终端的模型权重；

其中，所述样本数量占比与所述模型权重为正相关关系。

可选的，根据所述客户终端对应的样本数量占比以及所述客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，包括：

将所述客户终端的模型参数对应的准确率与修正数值相加，得到相加结果；

将所述客户终端对应的样本数量占比与所述相加结果相除，得到所述客户终端的模型权重。

可选的，根据各个客户终端的模型参数对应的准确率，确定其中最低的准确率；

根据所述最低的准确率，确定所述修正数值。

可选的，在通过测试数据集确定所述模型参数的准确率之前，还包括：

确定每一客户终端的本地训练样本的数量；

根据各个客户终端的本地训练样本的数量，计算从每一客户终端抽取的训练样本的数量；其中，各个客户终端的抽取比例相同，所述抽取比例为从客户终端抽取的训练样本的数量与所述客户终端的本地训练样本的数量的比值；

根据计算结果，从各个客户终端抽取相应数量的训练样本，组成所述测试数据集。

可选的，对于获取到的每一客户终端的模型参数，通过测试数据集确定所述模型参数对应的准确率，包括：

针对每一客户终端执行如下操作：

获取所述客户终端通过对应的模型参数对本地训练样本进行测试后得到的第一准确率；

确定所述测试数据集中除所述客户终端对应的训练样本以外的其它训练样本；

通过所述客户终端对应的模型参数对所述其它训练样本进行测试，得到所述模型参数对应的第二准确率；

对所述第一准确率和所述第二准确率进行融合处理，得到所述模型参数对应的准确率。

可选的，根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行聚合，得到更新后的全局模型参数，包括：

根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行加权求和，得到更新后的全局模型参数；

所述方法还包括：

判断所述更新后的全局模型是否收敛；

若所述全局模型处于收敛状态，则将所述全局模型确定为模型训练的最终结果；

若所述全局模型处于未收敛状态，则将所述全局模型的模型参数分别下发所述多个客户终端，以使所述多个客户终端分别根据更新后的全局模型继续迭代训练以返回模型参数，直至所述全局模型收敛。

本发明还提供一种模型参数确定装置，所述装置包括：

获取模块，用于获取多个客户终端分别发送的模型参数；其中，每一客户终端发送的模型参数为所述客户终端根据本地训练样本对全局模型进行训练后得到的模型参数；

第一确定模块，对于获取到的每一客户终端的模型参数，用于通过测试数据集确定所述模型参数对应的准确率；

第二确定模块，用于根据每一客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，其中，所述模型权重与所述准确率为负相关关系；

聚合模块，用于根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行聚合，得到更新后的全局模型参数。

本发明还提供一种模型参数确定设备，所述模型参数确定设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型参数确定程序，所述模型参数确定程序被所述处理器执行时实现如前述任一项所述的模型参数确定方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有模型参数确定程序，所述模型参数确定程序被处理器执行时实现如前述任一项所述的模型参数确定方法的步骤。

本发明中，通过获取多个客户终端分别发送的模型参数，其中，每一客户终端发送的模型参数为所述客户终端根据本地训练样本对全局模型进行训练后得到的模型参数，对于获取到的每一客户终端的模型参数，通过测试数据集确定所述模型参数对应的准确率，根据每一客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，其中，所述模型权重与所述准确率为负相关关系，根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行聚合，得到更新后的全局模型参数，本发明能够重点对性能不好的模型进行优化，提高处理小客户终端的数据时的准确率，提升模型的整体性能。

附图说明

图1为本发明实施例提供的一种应用场景示意图；

图2为本发明实施例提供的一种联邦学***性的原理示意图；

图3为本发明实施例提供的一种模型参数确定方法的流程示意图；

图4为本发明实施例提供的另一种模型参数确定方法的流程示意图；

图5为本发明提供的一种模型参数确定装置的结构示意图；

图6为本发明提供的一种模型参数确定设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1为本发明实施例提供的一种应用场景示意图。如图1所示，服务器和k个客户终端可以参与联邦学习过程。在联邦学习过程中，服务器向各个客户终端下发全局模型，每个客户终端利用本地数据对服务器下发的全局模型进行训练，得到训练后的模型参数并上传至服务器，服务器将各个客户终端上传的模型参数进行聚合，得到更新后的全局模型参数，依次重复上述过程，直至聚合后的全局模型收敛为止。

当参与联邦学***。

图2为本发明实施例提供的一种联邦学***性的原理示意图。如图2所示，参与联邦学***。

下面给出一些实现场景，以更清楚地描述以上提及的不公平性。

在一种可选的场景中，多个客户终端可以用于进行图像识别模型的训练。图像识别模型可以用于进行人脸识别。假设有两个客户终端联合训练图像识别模型，其中一客户终端具有的样本数量大都为年轻人的图像，而另一客户终端具有的样本数量大都为老年人的图像。若其中某一客户终端的数据量远远大于另一客户终端，那么最终的训练结果会更偏向于这个客户终端。

例如，年轻人对应的客户终端的样本数量更大，那么会导致训练得到的模型，在识别年轻人的图像时准确率更高，而识别老人年的图像时准确率会差一些。当样本数量差异巨大时，这种准确率的差距会更大，导致对小客户终端对应的数据的识别准确率较差。

在另一种可选的场景中，多个客户终端可以用于进行训练风险预测模型。某些客户终端存储的样本数据大都为普通用户的数据，而另外一些客户终端存储的样本数据大都为存款体量较大的客户。在对模型的训练过程中，预测普通用户的风险等级时可能更偏向于某些特征，而预测存款体量较大的用户的风险等级时可能会更偏向于其它特征。因此，如果某一个或几个客户终端的样本数量远大于其它客户终端，可能会导致对其它客户终端的样本数据的预测准确率较差。

在又一种可选的场景中，多个客户终端可以用于进行自然语言识别模型的训练。不同的客户终端具有不同类型的样本数据，例如来自不同区域的样本数据，不同区域可能会存在语句表达习惯不同的问题。同样，若其中某一个或几个客户终端的样本数量远大于其它客户终端，可能会导致对于其它客户终端的样本数据的准确率较差。例如，最终训练的模型处理A方言时的准确率较好，而处理B方言时的准确率较差。

在解决上述问题时，可以考虑在小客户终端中添加样本数据，使得大客户终端和小客户终端的数据量尽量相近。但是，数据一般是比较珍贵的资源，因此这种方案在现实中不容易实现，具有一定的局限性。

有鉴于此，本发明实施例提供一种模型参数确定方法，在对模型的训练过程中，服务器在获取到各个客户终端训练的局部模型后，可以针对每一客户终端，根据所述客户终端的模型，计算其对应的准确率，并根据准确率确定所述客户终端的权重，然后根据各个客户终端的模型权重，对所述多个客户终端的模型进行聚合，得到全局模型。

其中，客户终端的模型权重与客户终端对应的准确率可以为负相关关系，也就是说，模型的性能较差时，可以适当增加它的权重，从而使模型的训练过程能够更多地考虑性能不好的局部模型，最终达到一种公平和平衡，有效提高处理与小客户终端同样类型的数据时准确性，提升模型的整体性能。

图3为本发明实施例提供的一种模型参数确定方法的流程示意图。本实施例提供的方法的执行主体可以为服务器。如图3所示，所述方法可以包括：

步骤301、获取多个客户终端分别发送的模型参数；其中，每一客户终端发送的模型参数为所述客户终端根据本地训练样本对全局模型进行训练后得到的模型参数。

其中，所述客户终端可以是任意参与模型训练的终端。每个客户终端可以设置有本地训练样本。在对模型进行训练的过程中，服务器将全局模型下发给每个客户终端，每个客户终端根据自身具有的本地训练样本对获取到的模型进行训练，得到训练后的模型并发送给服务器。

具体的，模型与模型参数具有对应关系，模型参数确定后，模型也相应确定。客户终端将模型发送给服务器，或者，服务器将模型发送给客户终端，均可以通过发送模型参数来实现。模型参数确定后，即可以确定相应的模型。对模型进行训练的过程，也可以认为是确定模型参数的过程。所述模型参数可以是指用于确定模型的任意参数。

一个示例中，所述模型参数可以包括模型中的直接参数。以所述模型为神经网络模型为例，神经网络模型可以包括多个层如卷积层、归一化层、全连接层等，所述模型参数可以是每一层对应的参数。

假设所述神经网络模型包括三个卷积层，每个卷积层对应设置有卷积矩阵，输入数据在卷积层与卷积矩阵进行运算，得到的输出数据再输入到下一层继续进行计算。在这种情况下，所述神经网络模型的模型参数可以包括这三个卷积层的参数，即三个卷积层分别对应的卷积矩阵。

另一示例中，所述模型参数可以包括用于确定模型中的直接参数的任意其它参数。例如，神经网络模型通过梯度下降算法进行训练，则所述客户终端和服务器之间交互的模型参数可以包括训练过程中得到的梯度信息，通过梯度信息可以确定对应的卷积矩阵等直接参数。

在本实施例中，服务器可以先将全局模型的模型参数发生给每个客户终端，每个客户终端根据模型参数更新本地模型，并利用本地训练样本对本地模型进行训练，得到训练后的本地模型的模型参数，然后，将本地模型的模型参数上报给服务器，服务器可以从每个客户终端获取其对应的训练后的本地模型的模型参数。

可选的，为了保证数据的安全性，可以客户终端和服务器在进行交互的过程中，可以将交互的数据加密。例如，本步骤中，客户终端可以将模型参数加密后发送给服务器，满足隐私保护计算的需要。

步骤302、对于获取到的每一客户终端的模型参数，通过测试数据集确定所述模型参数对应的准确率。

具体地，在得到每一客户终端发来的模型参数后，可以对应确定每一客户终端训练得到的模型，并利用测试数据集确定模型的准确率。

其中，测试数据集可以包括任意数量测试样本，每一测试样本可以包括测试数据及对应的标签。测试数据集的来源可以有很多种，例如可以从参与模型训练的多个客户终端中抽取训练样本得到测试数据集，也可以通过其它渠道例如从其它服务器获取训练样本组成测试数据集。

在通过测试数据集确定模型的准确率时，可以先将测试数据集中每一测试数据输入到模型中，得到对应的结果，并将结果与测试数据对应的标签进行比对，得到模型的准确率。依照模型类型的不同，计算准确率的具体方案也可以不同。例如，对于用于实现分类的模型来说，可以计算预测正确的样本数量与全部样本数量的比值，作为模型的准确率。

对于每一客户终端，均可以通过上述方法计算其发来的模型的准确率。

可选的，在通过测试数据集确定所述模型参数的准确率之前，还可以：确定每一客户终端的本地训练样本的数量；根据各个客户终端的本地训练样本的数量，计算从每一客户终端抽取的训练样本的数量；其中，各个客户终端的抽取比例相同，所述抽取比例为从客户终端抽取的训练样本的数量与所述客户终端的本地训练样本的数量的比值；根据计算结果，从各个客户终端抽取相应数量的训练样本，组成所述测试数据集。

其中，所述抽取比例可以根据实际需要来设置，可以为一固定值，也可以根据多个客户终端的总样本数量变化。假设所述抽取比例为1/100，某一客户终端的本地训练样本数量为10000，则从该客户终端抽取100个训练样本，另一客户终端的本地训练样本数量为2000，则从该客户终端抽取20个训练样本。从各个客户终端抽取的训练样本作为测试数据集中的测试样本。

通过按照一定的抽取比例来从各个客户终端抽取相应数量的训练样本，可以快速构建测试数据集，且测试数据集中的测试样本能够有效模拟真实场景中的数据，使得模型的整体准确度更高。

步骤303、根据每一客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，其中，所述模型权重与所述准确率为负相关关系。

在得到每一客户终端的模型参数对应的准确率后，可以根据准确率计算每一个客户终端的模型权重。可选的，模型权重与准确率之间关系可以通过预设的函数关系式来表示。其中，所述模型权重与所述准确率可以为负相关关系。

在本发明实施例中，正相关关系是指，当变量x增大时，变量y也随之增大，即，两个变量的变动方向相同，一个变量x由大到小/由小到大变化时，另一个变量y也由大到小/由小到大变化，那么变量x和变量y可以认为是正相关关系。负相关关系是指，当变量x增大时，变量y随之减小，即，两个变量的变动方向相反，一个变量x由大到小/由小到大变化时，另一个变量y由小到大/由大到小变化，那么变量x和变量y可以认为是负相关关系。

所述模型权重与所述准确率可以为负相关关系，也就是说，准确率越高，对应的模型权重越低，准确率越低，对应的模型权重越高。

步骤304、根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行聚合，得到更新后的全局模型参数。

可选的，根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行聚合，得到更新后的全局模型参数，可以包括：根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行加权求和，得到更新后的全局模型参数。

举例来说，模型中包括卷积层，对应的模型参数包括卷积矩阵，在得到多个客户终端上报的卷积矩阵后，可以将各个卷积矩阵进行加权求和，得到的卷积矩阵可以作为全局模型中的卷积矩阵。

可以理解的是，模型训练过程可能会经过多个迭代过程，本实施例提供的方法，可以应用于模型训练过程中的任意一个或多个迭代过程中。例如，可以在每一个迭代过程，均采用上述的方法实现全局模型的更新，或者，可以仅在部分迭代过程内采用上述的聚合方法，而在其它迭代过程内采用另外的聚合方法，例如奇数次迭代过程用本方案，偶数次迭代过程用另外的方案，也可以在一定程度上改善最终模型不公平的问题。

在实际应用中，通过上述方案可以根据模型的准确率确定对应的模型权重，并根据模型权重进行模型聚合，得到下一轮训练的全局模型，然后，服务器可以将聚合后的全局模型的模型参数下发给各个客户终端，继续进行训练，直至模型收敛。

其中，若模型性能越好，那么准确率越高，可以适当降低该模型的模型权重，相反，若模型性能越差，那么准确率越低，可以适当增加该模型的模型权重，这样做的目的是使得聚合(更新)后的全局模型能够更多地考虑这些性能较差的模型，使得它们的占比更高，下一次优化的时候能够重点优化这些性能不好的模型，也就是小客户终端的模型，最终达到一种公平和平衡。

下面通过一个简单直观的例子解释如何利用权重调整模型更倾向于哪个客户终端。

假设模型用于分类，具体用于识别输入图像中是A物体还是B物体。客户终端1上报的某模型参数为100，表示客户终端1经过训练后，认为图像的某特征向量大于100时，说明图像中是A物体，小于100说明图像中是B物体。客户终端2上报的模型参数为120，表示客户终端2的训练结果认为，大于120为A物体，小于120为B物体。假设不考虑模型准确率，最终的聚合结果是模型参数为110，表示分界线在110。但是，在考虑模型准确率后，将分界线定在115，更靠近客户终端2，那么可以看出，最终聚合得到的模型更加接近客户终端2的训练结果，对客户终端2更加友好，在处理客户终端2的数据时更加准确。

当然，实际的模型可以具有更高的复杂度，无论多么复杂的模型，都可以利用每个客户终端上报的模型，通过准确率计算其对应的模型权重，并根据模型权重进行聚合得到全局模型，从而根据准确率对全局模型进行优化。

本实施例提供的模型参数确定方法，可以获取多个客户终端分别发送的模型参数，对于获取到的每一客户终端的模型参数，通过测试数据集确定所述模型参数对应的准确率，然后根据每一客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，其中，所述模型权重与所述准确率为负相关关系，最后根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行聚合，得到更新后的全局模型参数，能够在模型训练过程中更多地考虑性能不好的客户终端模型，重点对性能不好的模型进行优化，提高最终得到的全局模型在处理小客户终端的数据时的准确率，提升模型的整体性能。

图4为本发明实施例提供的另一种模型参数确定方法的流程示意图。本实施例是在前述实施例提供的技术方案的基础上，对每一轮的迭代过程均采用如上的聚合方法。如图4所示，假设当前正在进行第t轮的迭代，算法的执行步骤流程如下：

步骤401、服务器将当前全局模型M^t下发给每一个客户终端C_i。

其中，下发全局模型可以通过下发全局模型的模型参数来实现。模型参数与模型具有对应关系，本发明实施例中，用同样的标记M^t表示全局模型和全局模型的模型参数，其它标记同理。

步骤402、客户终端C_i将当前的全局模型M^t覆盖本地模型

即

具体的，客户终端本地存储有本地模型，需要将接收的全局模型覆盖本地模型。其中，将接收的全局模型覆盖本地模型是指删除本地模型，将全局模型作为本地模型，从而利用接收到的全局模型进行训练。

例如，当接收到的全局模型M^t中的第一个卷积层的卷积矩阵为w′，而本地模型

中的第一个卷积层的卷积矩阵为w时，则需要将本地模型中的权重矩阵w替换为w′。

步骤403、客户终端C_i利用自身的本地训练样本进行本地训练，客户终端C_i的本地模型从

变为

将

的模型参数上传给服务器。

具体的，当客户终端将本地模型更新为全局模型后，客户终端会将本地的训练样本输入至本地模型，通过训练样本对本地模型的训练，从而对本地模型的参数进行调整，以提高本地模型的准确率。其中，经过每个客户终端的训练样本训练后的本地模型

能够在一定程度上体现每个客户终端内的训练样本的数据特征。客户终端将本地模型

的参数上传给服务器。

步骤404、服务端接收到所有客户终端上传的模型参数

对

进行测试得到对应的准确率。

具体的，测试方法是利用服务器中的测试数据集，将

作用于测试数据集，求出模型的准确率为q_i。

服务器在获取到所有客户终端上传的模型参数后，通过测试数据集对每一个模型参数进行测试，可以得到每一个模型参数对应的准确率。其中，测试数据集可以包括从每一个客户终端抽取的训练样本，且测试数据集中从每个客户终端抽取的训练样本与所述客户终端的本地训练样本对应成比例。通过将测试数据集对每一个模型参数进行测试可以确定每一个模型参数对测试数据集的测试准确率。可以理解的是，每一个模型参数对所述测试数据集的准确率可能不完全相同。

其中，准确率的计算可以通过对每一个测试数据的测试结果进行统计来得到，当某一测试数据的预测结果与该测试数据的标签一致时，则表示对该测试数据预测正确；相反，则表示对该测试数据的预测错误。通过统计在某模型参数下预测正确的训练样本数量，可以确定与客户终端对应的模型参数的准确率。

例如，当模型用于分类时，若测试数据集中的样本数量为100个，若第一个客户终端的模型参数对其中80个训练样本预测正确，剩余20个预测错误，第一个客户终端的模型参数对应的准确率为80％。

通过本步骤，服务器可以实现获取多个客户终端分别发送的模型参数，对于获取到的每一客户终端的模型参数，通过测试数据集确定所述模型参数对应的准确率。

步骤405、聚合求取全局模型。

具体的，服务器可以根据每一客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行聚合，得到更新后的全局模型参数。其中，准确率越低，对应的模型权重越高，准确率越高，对应的模型权重越低。

进一步的，根据每一客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，可以包括：获取各个客户终端的样本数量占比；其中，每一客户终端对应的样本数量占比为所述客户终端的本地训练样本的数量与所述多个客户终端的本地训练样本的总数量的比值；对于每一客户终端，根据所述客户终端对应的样本数量占比以及所述客户终端的模型参数对应的准确率，确定所述客户终端的模型权重；其中，所述样本数量占比与所述模型权重为正相关关系。

具体来说，在确定客户终端的模型权重时，可以根据客户终端的样本数量占比和该客户终端的模型参数对应的准确率来综合确定。

其中，客户终端的样本数量占比可以为：

其中，p_i表示客户终端C_i的样本数量占比，m_i表示客户终端C_i的本地训练样本数量，m表示所有客户终端的本地训练样本数量的总和，即m可以表示为：

在一些技术中，客户终端的模型权重等于客户终端的样本数量占比，而各个客户终端的本地样本数量一般不会发生变化，p_i可以认为是一个固定值，因此，采用样本数量占比作为模型权重时，无法对小客户终端的模型参数进行重点优化，因此聚合后的全局模型对于小客户终端的数据的预测准确率会比较低。

基于上述情况，本实施例中根据样本数量占比和准确率综合确定模型权重，其中，模型权重与样本数量占比为正相关关系，模型权重与模型参数对应的准确率为负相关关系，能够使得确定的模型权重既能反映每个客户终端的数据样本数量，让最终训练得到的模型参数更符合实际应用场景的需求，也可以更多地去优化准确率较小的客户终端的模型参数，使得聚合后的全局模型能够兼顾不同客户终端的数据。

具体来说，如果对模型权重不加干涉，那么极端情况下，大客户的训练样本特别大，会导致最终训练的模型接近只根据大客户数据进行训练的模型，这种情况下，训练得到的模型对大客户的数据的预测准确率更接近100％，而对其它客户的数据的预测准确率比较低(接近没有使用小客户终端数据进行训练时的准确率)。而本实施例提供的方案，在训练时对准确率低的模型，赋予更大的权重，使得训练结果向对应的客户终端倾斜，提升模型的整体效果。

可选的，根据所述客户终端对应的样本数量占比以及所述客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，可以包括：将所述客户终端的模型参数对应的准确率与修正数值相加，得到相加结果；将所述客户终端对应的样本数量占比与所述相加结果相除，得到所述客户终端的模型权重。

具体的，可以通过如下公式计算聚合后的全局模型。

公式中，n表示客户终端的总数，m表示修正数值。

为客户终端C_i上报的模型，M^t+1为聚合后的全局模型。通过对模型权重的修正能够使得最终训练的模型对小客户的数据的预测准确率有所提升，实现同时兼顾大客户的准确率和小客户的准确率。

其中，修正数值m的取值可以根据实际需要来设置。可选的，所述修正数值可以大于0且小于等于1，大于0可以避免准确率为0时导致公式无法计算，小于等于1可以避免由于修正数值太大，使得得到的不同客户终端的模型权重相差不大，从而无法有效实现对准确率较小的模型参数进行优化。

通过以上所述的公式计算模型权重，可以保证模型权重与样本数量占比为正相关关系，与准确率为负相关关系，且计算简单，在保证模型训练效果的基础上减少服务器的负担，提高训练效率。

可选的，修正数值m可以等于1，可以使得到的模型权重为处于0至1之间的数值，无需进行进一步的归一化操作，减少模型聚合花费的时间。通过将修正数值引入模型权重，能够保证模型参数的取值处于预设范围，从而达到对准确率较低的模型参数进行重点优化。

此外，还可以根据各个客户终端的模型参数对应的准确率，确定其中最低的准确率；根据所述最低的准确率，确定所述修正数值。

其中，所述修正数值可以为1与所述最低的准确率之间的差值。举例来说，若最低的准确率为0.4，则所述修正数值可以为0.6。由于样本数量占比为一个0至1之间的数值，将所述修正数值设置为1与所述最低的准确率之间的差值，可以保证最终得到的模型权重位于0至1之间，并且，可以使得修正数值尽可能地小，尽量减少修正数值对最终得到的模型权重的影响，能够使得优化效果更好。

在聚合得到全局模型后，重复执行上述步骤401至步骤405，直到模型收敛为止。即，在步骤405后，可以判断所述更新后的全局模型是否收敛：若所述全局模型处于收敛状态，则将所述全局模型确定为模型训练的最终结果；若所述全局模型处于未收敛状态，则将所述全局模型的模型参数分别下发所述多个客户终端，以使所述多个客户终端分别根据更新后的全局模型继续迭代训练以返回模型参数，直至所述全局模型收敛。

具体的，判断模型是否收敛的方法可以有很多种。一个示例中，当迭代次数达到一定值后，可以确定模型处于收敛状态。另一示例中，可以根据模型的预测结果来确定模型是否收敛，例如若相邻两次或多次迭代得到的模型的准确率相差小于一定的阈值，则认为模型收敛。

在上述各实施例提供的技术方案的基础上，可选的是，对于获取到的每一客户终端的模型参数，通过测试数据集确定所述模型参数对应的准确率，包括：针对每一客户终端执行如下操作：获取所述客户终端通过对应的模型参数对本地训练样本进行测试后得到的第一准确率；确定所述测试数据集中除所述客户终端对应的训练样本以外的其它训练样本；通过所述客户终端对应的模型参数对所述其它训练样本进行测试，得到所述模型参数对应的第二准确率；对所述第一准确率和所述第二准确率进行融合处理，得到所述模型参数对应的准确率。

具体的，由于服务器中的测试数据集包含从各个客户终端抽取的训练样本，因此，确定每个客户终端的模型参数对应的准确率，可以由服务器和客户终端共同完成。

具体的，客户终端在通过本地训练数据得到模型参数后，可以计算模型参数对本地训练样本的准确率，例如，将每一个训练样本输入到对应的模型中，并将输出结果与标签进行比较，最终得到模型在测试本地训练样本时的准确率，记为第一准确率。

服务器在获取客户终端上报的模型参数时，可以同时获取所述客户终端所述第一准确率；当然，所述模型参数和所述第一准确率也可以分开发送，本发明实施例对此不作限制。

服务器可以通过客户终端上报的模型参数，对所述测试数据集中除所述客户终端对应的训练样本以外的其它训练样本进行测试，得到对应的准确率，记为第二准确率。也就是说，服务器仅需要计算模型参数对于其它训练样本的准确率，而不需要计算测试数据集中的全部训练样本的准确率。

在得到第一准确率和第二准确率后，可以对所述第一准确率和所述第二准确率进行融合处理，例如加权求和，从而得到所述模型参数对应的准确率。

其中，两者的权重可以通过测试数据集中所述客户终端上报的训练样本与其它训练样本来确定。可选的，第一准确率的权重与第二准确率的权重之比可以等于所述测试数据集中所述客户终端上报的训练样本的数量与其它训练样本的数量之比，从而使计算得到的准确率能够更加精准地反映实际情况，提高模型的训练效果。

一个简单的例子是，服务器从客户终端1和客户终端2分别抽取100个和50个训练样本，组成测试数据集。在联邦学习过程中，客户终端1在对全局模型进行训练后，得到对应的模型参数，然后通过该模型参数对本地训练样本中上传到服务器的100个训练样本进行测试，得到对应的第一准确率，假设为95％，这个准确率表示模型参数在处理本地训练样本时有95％的准确率，客户终端将模型参数和第一准确率上报服务器。同理，客户终端2可以上报模型参数和其对应的第一准确率，假设为98％。

服务器在获取到两个客户终端上报的模型参数及各自对应的第一准确率后，用客户终端1上报的模型参数对从客户终端2抽取的50个训练样本进行测试，得到对应的第二准确率，假设为85％，这个准确率表示客户终端1的模型参数在处理客户终端2的训练样本时有85％的准确率，将这两个准确率进行加权求和，可以得到客户终端1对应的准确率为95％*2/3+85％*1/3。同理，假设客户终端2对从客户终端1抽取的100个训练样本的第二准确率为88％，可以得到客户终端2对应的准确率为88％*2/3+98％*1/3。

通过上述方法，可以利用客户终端对本地训练样本进行测试，得到对应的准确率上报服务器，服务器可以仅对测试数据集中的其他训练样本进行处理，有效减轻了服务器的负担，提高了服务器的处理效率，并且客户终端可以使用更多的训练样本对模型参数进行测试，有效提高了计算精准度。

另外，需要注意的是，本发明各实施例中的步骤的执行顺序并不限于上述序号所限定的顺序，本领域技术人员可以根据具体的应用需求和设计需求进行任意配置，在此不再赘述。

在实际应用中，可以利用本发明实施例所述的方法实现各种模型的训练。在一种可选的实现方式中，所述模型可以为图像识别模型，相应的，本发明实施例中的训练样本可以为人脸图像，通过上述方法，可以实现对图像识别模型的训练，得到的全局模型可以用于进行人脸识别。可选的，在使用所述模型时，可以获取监控图像，将监控图像中的人脸图像输入到所述图像识别模型中，得到对应的行人ID，能够辅助实现行人识别，减轻人工识别费时费力的问题，有效提高了识别的效率和准确率。

在另一种可选的实现方式中，所述模型可以为风险预测模型，相应的，本发明实施例中的训练样本可以为用户的资产数据例如存款时间、存款金额、贷款时间、贷款金额、坏账记录等，通过上述方法，可以实现对风险预测模型的训练，得到的全局模型可以用于进行风险预测。可选的，在使用所述模型时，可以将待预测的用户的资产数据输入所述模型，得到对应的风险预测结果，例如逾期不还的概率是高还是低，并将所述结果显示给工作人员，或者，根据所述结果调整对所述用户的放款限制，从而有效帮助工作人员预测用户对应的风险等级，减轻人工负担，提高了预测的效率和准确率。

在又一种可选的实现方式中，所述模型可以为自然语言识别模型，相应的，本发明实施例中的训练样本可以为语料数据，通过上述方法，可以实现对自然语言识别模型的训练，得到的全局模型可以用于进行自然语言识别。可选的，可以使用所述模型来进行各类语句的识别，例如，可以用于识别是否出现投诉语句。在使用时，采集用户输入的话语输入到所述自然语言识别模型，从而确定是否出现投诉语句，通过所述自然语言识别模型可以识别海量语料数据中的投诉语句，并将所述投诉语句关联的用户标识、时间、上下文等信息输出给人工进行进一步处理，能够有效实现投诉信息的筛选，提高处理的效率和准确率。

图5为本发明实施例提供的一种模型参数确定装置的结构示意图。如图5所示，所述模型参数确定装置可以包括：

获取模块501，用于获取多个客户终端分别发送的模型参数；其中，每一客户终端发送的模型参数为所述客户终端根据本地训练样本对全局模型进行训练后得到的模型参数；

第一确定模块502，对于获取到的每一客户终端的模型参数，用于通过测试数据集确定所述模型参数对应的准确率；

第二确定模块503，用于根据每一客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，其中，所述模型权重与所述准确率为负相关关系；

聚合模块504，用于根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行聚合，得到更新后的全局模型参数。

本实施例提供的模型参数确定装置，可以用于执行前述任一方法实施例提供的技术方案，其实现原理和技术效果类似，此处不再赘述。

在一种可能的实现方式中，所述第二确定模块503具体用于：

其中，所述样本数量占比与所述模型权重为正相关关系。

在一种可能的实现方式中，所述第二确定模块503在根据所述客户终端对应的样本数量占比以及所述客户终端的模型参数对应的准确率，确定所述客户终端的模型权重时，具体用于：

在一种可能的实现方式中，所述第二确定模块503还用于：

根据各个客户终端的模型参数对应的准确率，确定其中最低的准确率；

根据所述最低的准确率，确定所述修正数值。

在一种可能的实现方式中，所述第一确定模块502还用于：

确定每一客户终端的本地训练样本的数量；

在一种可能的实现方式中，所述第一确定模块502在通过测试数据集确定所述模型参数对应的准确率时，具体用于：

针对每一客户终端执行如下操作：

在一种可能的实现方式中，所述聚合模块504在对所述多个客户终端的模型参数进行聚合，得到更新后的全局模型参数时，具体用于：

所述聚合模块504还用于：

判断所述更新后的全局模型是否收敛；

前述任一实施例提供的模型参数确定装置，用于执行前述任一方法实施例的技术方案，其实现原理和技术效果类似，在此不再赘述。

图6为本发明实施例提供的一种模型参数确定设备的结构示意图。如图6所示，所述设备可以包括：存储器601、处理器602及存储在所述存储器601上并可在所述处理器602上运行的模型参数确定程序，所述模型参数确定程序被所述处理器602执行时实现如前述任一实施例所述的模型参数确定方法的步骤。

可选地，存储器601既可以是独立的，也可以跟处理器602集成在一起。

本实施例提供的设备的实现原理和技术效果可以参见前述各实施例，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有模型参数确定程序，所述模型参数确定程序被处理器执行时实现如前述任一实施例所述的模型参数确定方法的步骤。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种模型参数确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据每一客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，包括：

其中，所述样本数量占比与所述模型权重为正相关关系。

3.根据权利要求2所述的方法，其特征在于，根据所述客户终端对应的样本数量占比以及所述客户终端的模型参数对应的准确率，确定所述客户终端的模型权重，包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

根据所述最低的准确率，确定所述修正数值。

5.根据权利要求1-4任一项所述的方法，其特征在于，在通过测试数据集确定所述模型参数的准确率之前，还包括：

确定每一客户终端的本地训练样本的数量；

6.根据权利要求5所述的方法，其特征在于，对于获取到的每一客户终端的模型参数，通过测试数据集确定所述模型参数对应的准确率，包括：

针对每一客户终端执行如下操作：

7.根据权利要求1-4任一项所述的方法，其特征在于，根据各个客户终端的模型权重，对所述多个客户终端的模型参数进行聚合，得到更新后的全局模型参数，包括：

所述方法还包括：

判断所述更新后的全局模型是否收敛；

8.一种模型参数确定装置，其特征在于，包括：

9.一种模型参数确定设备，其特征在于，所述模型参数确定设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的模型参数确定程序，所述模型参数确定程序被所述处理器执行时实现如权利要求1-7中任一项所述的模型参数确定方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有模型参数确定程序，所述模型参数确定程序被处理器执行时实现如权利要求1-7中任一项所述的模型参数确定方法的步骤。