CN112465043B

CN112465043B - 模型训练方法、装置和设备

Info

Publication number: CN112465043B
Application number: CN202011392884.1A
Authority: CN
Inventors: 王健宗; 李泽远; 朱星华
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2024-05-14
Anticipated expiration: 2040-12-02
Also published as: WO2022116440A1; CN112465043A

Abstract

本发明提供模型训练方法、装置和设备，其中，方法包括：第一数据源获取第一训练集，并采用第一训练集中的样本对第一基模型进行训练，获得第一基模型收敛时的第一模型参数，并将第一模型参数发送给服务器，第一数据源从服务器获取聚合参数，聚合参数由服务器聚合该第一模型参数和j‑1个第二模型参数得到，第一数据源根据聚合参数对第一训练集中的样本进行更新，采用更新后的第一训练集中的样本对第一基模型进行训练，直到第一数据源获得T个聚合参数，第一数据源根据T个聚合参数，获得最终分类模型。该技术方案通过联合多个数据源的训练集进行多轮迭代的模型训练，可以满足基于大量数据进行训练的需求，提高最终分类模型的分类准确性。

Description

模型训练方法、装置和设备

技术领域

本发明涉及数据挖掘领域，尤其涉及模型训练方法、装置和设备。

背景技术

Adaboost作为一种迭代算法，主要应用于分类，其基本原理在于将多个弱分类器进行合理的结合，使其成为一个强分类器。分类的应用十分广泛，例如对垃圾邮件进行识别等，而在进行分类的时候，数据量的大小直接影响分类模型的准确率。

传统的Adaboost算法是基于单个数据源的数据集对模型进行迭代训练，单个数据源的数据集的数据量有限，其计算能力也无法满足基于大量数据对分类模型进行训练的要求，分类结果不准确。

发明内容

本发明实施例提供模型训练方法、装置和设备，在进行模型训练时，可以满足基于大量数据对最终分类模型进行训练的需求，从而提高最终分类模型的分类准确性。

第一方面，提供模型训练方法，所述方法适用于一种通信***，所述通信***包括服务器和j个数据源，所述j为大于或者等于2的整数，所述方法包括：

第一数据源获取第一训练集，并采用所述第一训练集中的样本对第一基模型进行训练，获得所述第一基模型收敛时的第一模型参数，所述第一数据源是所述j个数据源中的任一个；

所述第一数据源将所述第一模型参数发送给所述服务器；

所述第一数据源从所述服务器获取聚合参数，所述聚合参数是所述服务器根据所述第一模型参数和j-1个第二模型参数聚合得到，所述j-1个第二模型参数来自所述j个数据源中除所述第一数据源外的j-1个第二数据源，一个第二模型参数来自一个第二数据源，所述第二模型参数是所述第二数据源采用第二训练集中的样本对第二基模型进行训练时，所述第二基模型收敛时的参数，所述第二基模型与所述第一基模型为同类型的模型；

所述第一数据源根据所述聚合参数对所述第一训练集中的样本进行更新，并采用更新后的第一训练集中的样本对所述第一基模型进行训练，直到所述第一数据源获得T个聚合参数，所述T为大于或者等于2的整数；

所述第一数据源根据所述T个聚合参数，获得最终分类模型。

结合第一方面，在一种可能的实现方式中，所述第一数据源根据所述聚合参数对所述第一训练集中的样本进行更新，包括：所述第一数据源根据所述聚合参数，构建测试基模型；所述第一数据源采用所述测试基模型对所述第一训练集中的样本进行类别测试，确定所述第一训练集中的样本对应的预测类别；所述第一数据源根据所述第一训练集中的样本对应的预测类别与所述第一训练集中的样本对应的实际类别之间的误差，确定所述聚合参数对应的训练误差；所述第一数据源根据所述聚合参数对应的训练误差，对所述第一训练集中的样本进行更新。

结合第一方面，在一种可能的实现方式中，所述第一训练集中的样本的当前权重的权重值为第一权重值，所述第一数据源根据所述聚合参数对应的训练误差，对所述第一训练集中的样本进行更新，包括：第一数据源根据所述聚合参数对应的训练误差，计算所述聚合参数对应的模型权重，所述模型权重用于表示所述聚合参数在所述最终分类模型中的重要程度；所述第一数据源根据所述聚合参数对应的模型权重和所述第一权重值，对所述第一训练集中的样本的当前权重的权重值进行更新。

结合第一方面，在一种可能的实现方式中，所述第一训练集中包括至少两个样本，一个样本对应一个第一权重值；所述第一数据源采用所述测试基模型对所述第一训练集中的样本进行类别测试，确定所述第一训练集中的样本对应的预测类别，包括：所述第一数据源采用所述测试基模型分别对所述至少两个样本中的每个样本进行类别测试，获得每个所述样本对应的预测类别；所述第一数据源根据所述第一训练集中的样本对应的预测类别与所述第一训练集中的样本对应的实际类别之间的误差，确定所述聚合参数对应的训练误差，包括：针对所述至少两个样本中的每个样本，若所述样本对应的预测类别与所述样本对应的实际类别存在误差，则确定所述样本为预测错误样本；所述第一数据源获取所述至少两个样本中的至少一个预测错误样本，并将所述至少一个预测错误样本对应的至少一个第一权重值之和确定为所述聚合参数对应的训练误差。

结合第一方面，在一种可能的实现方式中，所述第一数据源根据所述T个聚合参数，获得最终分类模型，包括：所述第一数据源分别获取所述T个聚合参数中每个聚合参数对应的模型权重，所述模型权重用于表示所述聚合参数在所述最终分类模型中的重要程度；所述第一数据源根据所述T个聚合参数中的每个聚合参数和所述每个聚合参数对应的模型权重，获得集成模型参数；所述第一数据源根据所述集成模型参数，生成最终分类模型。

结合第一方面，在一种可能的实现方式中，所述获得最终分类模型之后，还包括：所述第一数据源获取测试集，并采用所述最终分类模型对所述测试集中的样本进行类别测试，确定所述测试集中的样本对应的预测类别；所述第一数据源根据所述测试集中的样本对应的预测类别和所述测试集中的样本对应的实际类别之间的误差，确定所述最终分类模型的分类准确率；若所述分类准确率大于第一阈值，所述第一数据源输出提示信息，所述提示信息用于提示所述最终分类模型训练完成。

结合第一方面，在一种可能的实现方式中，所述第一基模型和所述第二基模型为双层神经网络模型。

第二方面，提供模型训练装置，其特征在于，所述装置应用于通信***中的第一数据源，所述通信***包括服务器和j个数据源，j为大于或者等于2的整数，所述模型训练装置包括：

训练模块，用于获取第一训练集，并采用所述第一训练集中的样本对第一基模型进行训练，获得所述第一基模型收敛时的第一模型参数；

发送模块，用于将所述第一模型参数发送给所述服务器；

接收模块，用于从所述服务器获取聚合参数，所述聚合参数是所述服务器根据所述第一模型参数和j-1个第二模型参数聚合得到，所述j-1个第二模型参数来自所述j个数据源中除所述第一数据源外的j-1个第二数据源，一个第二模型参数来自一个第二数据源，所述第二模型参数是所述第二数据源采用第二训练集中的样本对第二基模型进行训练时，所述第二基模型收敛时的参数，所述第二基模型与所述第一基模型为同类型的模型；

更新模块，用于根据所述聚合参数对所述第一训练集中的样本进行更新，并采用更新后的第一训练集中的样本对所述第一基模型进行训练，直到所述第一数据源获得T个聚合参数，所述T为大于或者等于2的整数；

聚合模块，用于根据所述T个聚合参数，获得最终分类模型。

结合第二方面，在一种可能的实现方式中，更新模块，用于根据所述聚合参数对所述第一训练集中的样本进行更新，包括：根据所述聚合参数，构建测试基模型；采用所述测试基模型对所述第一训练集中的样本进行类别测试，确定所述第一训练集中的样本对应的预测类别；根据所述第一训练集中的样本对应的预测类别与所述第一训练集中的样本对应的实际类别之间的误差，确定所述聚合参数对应的训练误差，并根据所述聚合参数对应的训练误差，对所述第一训练集中的样本进行更新。

结合第二方面，在一种可能的实现方式中，所述第一训练集中的样本的当前权重的权重值为第一权重值，更新模块，用于根据所述聚合参数对应的训练误差，计算所述聚合参数对应的模型权重，所述模型权重用于表示所述聚合参数在所述最终分类模型中的重要程度；所述第一数据源根据所述聚合参数对应的模型权重和所述第一权重值，对所述第一训练集中的样本的当前权重的权重值进行更新。

结合第二方面，在一种可能的实现方式中，所述第一训练集中包括至少两个样本，一个样本对应一个第一权重值，更新模块，还用于采用所述测试基模型分别对所述至少两个样本中的每个样本进行类别测试，获得每个所述样本对应的预测类别。针对所述至少两个样本中的每个样本，若所述样本对应的预测类别与所述样本对应的实际类别存在误差，则确定所述样本为预测错误样本；更新模块，还用于获取所述至少两个样本中的至少一个预测错误样本，并将所述至少一个预测错误样本对应的至少一个第一权重值之和确定为所述聚合参数对应的训练误差。

结合第二方面，在一种可能的实现方式中，聚合模块，用于根据所述T个聚合参数，获得最终分类模型；分别获取所述T个聚合参数中每个聚合参数对应的模型权重，所述模型权重用于表示所述聚合参数在所述最终分类模型中的重要程度；根据所述T个聚合参数中的每个聚合参数和所述每个聚合参数对应的模型权重，获得集成模型参数；聚合模块根据所述集成模型参数，生成最终分类模型。

结合第二方面，在一种可能的实现方式中，所述装置还包括：测试模块，用于获取测试集，并采用所述最终分类模型对所述测试集中的样本进行类别测试，确定所述测试集中的样本对应的预测类别；根据所述测试集中的样本对应的预测类别和所述测试集中的样本对应的实际类别之间的误差，确定所述最终分类模型的分类准确率；若所述分类准确率大于第一阈值，所述第一数据源输出提示信息，所述提示信息用于提示所述最终分类模型训练完成。

结合第二方面，在一种可能的实现方式中，所述第一基模型和所述第二基模型为双层神经网络模型。

第三方面，提供模型训练设备，其特征在于，包括处理器、存储器以及输入输出接口，所述处理器、存储器和输入输出接口相互连接，其中，所述输入输出接口用于输入或输出数据，所述存储器用于存储程序代码，所述处理器被配置用于执行上述第一方面的方法。

第四方面，提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本发明实施例中，第一数据源采用第一训练集中的样本对第一基模型进行训练，获得第一模型参数，并将该第一模型参数发送给服务器，从而使得服务器聚合该第一模型参数和j-1个第二模型参数得到聚合参数，将该聚合参数发送给第一数据源，直到第一数据源获得T个聚合参数，从而根据该T个聚合参数获得最终分类模型，该最终分类模型是基于第一数据源的第一训练集的数据以及j-1个第二数据源的j-1个第二训练集的数据进行训练得到的，从而使得该最终分类模型可以满足基于大量数据进行训练的需求，提高最终分类模型的分类准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种模型训练方法的流程示意图；

图2是本发明实施例提供的另一种模型训练方法的流程示意图；

图3是本发明实施例提供的一种模型训练过程中的数据参数交互示意图；

图4是本发明实施例提供的一种模型训练装置的组成结构示意图；

图5是本发明实施例提供的一种模型训练设备的组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例通过对模型进行训练，得到最终分类模型，并采用该最终分类模型对待分类对象进行分类。本申请的最终分类模型可以适用各种分类场景，可选的，本申请的最终分类模型可以实现对邮件进行分类的场景，例如，可以将邮件分类为垃圾邮件和非垃圾邮件。或者，本申请的最终分类模型适用的场景还可以是对通信账号进行分类的场景，例如，可以将通信账号分类为虚假账号和非虚假账号。或者，本申请的最终分类模型可以对用户是否患病进行分类等等。可以理解的是，本申请的最终分类模型所适用的场景不同，相应的，数据集中的训练数据也不相同，如对邮件是否为垃圾邮件进行分类的场景中，数据集中的训练数据为待分类邮件中的文本所对应的词向量；而对用户是否患病进行分类的场景中，数据集中的训练数据为年龄、性别、饮食习惯和体检结果所对应的特征向量等。

本申请的模型训练方法适用于包括服务器和j个数据源的通信***中，j为大于或者等于2的整数，第一数据源获取第一训练集，并采用第一训练集中的样本对第一基模型进行训练，获得第一基模型收敛时的第一模型参数，该第一数据源是j个数据源中的任一个；

第一数据源将第一模型参数发送给服务器；

第一数据源从服务器获取聚合参数，该聚合参数是服务器根据第一模型参数和j-1个第二模型参数聚合得到的，j-1个第二模型参数来自j个数据源中除第一数据源外的j-1个第二数据源，一个第二模型参数来自一个第二数据源，第二模型参数是第二数据源采用第二训练集中的样本对第二基模型进行训练时，第二基模型收敛时的参数，第二基模型与第一基模型为同类型的模型；

第一数据源根据聚合参数对第一训练集中的样本进行更新，并采用更新后的第一训练集中的样本对第一基模型进行训练，直到第一数据源获得T个聚合参数，T为大于或者等于2的整数；

第一数据源根据T个聚合参数，获得最终分类模型。

由于聚合参数是基于多个数据源中的训练模型的参数得到的，聚合了多个不同数据源的训练集的训练模型，分类模型的性能更好，准确度更高。

参见图1，图1是本发明实施例提供的一种模型训练方法的流程示意图，包括：

S101，第一数据源获取第一训练集，并采用第一训练集中的样本对第一基模型进行训练，获得第一基模型收敛时的第一模型参数。

在对第一基模型进行训练之前，第一数据源首先对第一数据源拥有的邮件数据集进行处理，处理步骤如下：

一、将数据集划分为训练集和测试集，并保证训练集和测试集的数据分布大致一致。

二、对于划分的训练集中的样本权重进行初始化，若第一数据源的训练集中的样本个数为m，m为整数，则训练集中的每个样本的初始权重为1/m，即在第一轮训练中，数据集的每一个样本的初始权重相同，该初始权重即为第一轮训练中的第一权重值，且都为训练集中样本之和的倒数，称经过初始化的训练集为第一训练集。

在第一数据源部署一个双层神经网络模型，作为第一基模型，第一数据源基于第一训练集对第一基模型进行训练，通过梯度下降等优化算法，对第一基模型的参数进行更新，将收敛时的第一基模型的参数记为第一模型参数。

由于上述第一数据源是j个数据源中的任一数据源，j个数据源拥有不同的数据集，为了便于区分，将j个数据源中除第一数据源以外的j-1个数据源记为第二数据源，将第二数据源中的与第一基模型具有相同网络结构的双层神经网络模型记为第二基模型。与第一数据源相同，第二数据源采用与第一数据源相同的步骤对第二数据源拥有的数据集进行处理，得到第二训练集，并基于第二训练集对第二基模型进行训练，将收敛时的第二基模型的参数记为第二模型参数。

S102，第一数据源将第一模型参数发送给服务器。

第一数据源得到第一模型参数后，将该第一模型参数发送给服务器。j个数据源中除第一数据源以外的j-1个第二数据源将基于第二训练集训练得到的j-1个第二模型参数发送给服务器。

S103，第一数据源从服务器获取聚合参数，聚合参数是服务器根据第一模型参数和j-1个第二模型参数聚合得到的。

在上一轮训练之后，服务器接收到j个模型参数，包括来自第一数据源的第一模型参数和来自j-1个第二数据源的第二模型参数，服务器端对接收到的j个模型参数采用FedAvg算法中的平均聚合方式，得到聚合参数。

得到聚合参数后，上述服务器将该聚合参数发送给上述j个数据源，j个数据源从服务器接收聚合参数，这里，第一数据源和j-1个数据源都从该服务器接收相同的聚合参数。

S104，第一数据源根据聚合参数对第一训练集中的样本进行更新，并采用更新后的第一训练集中的样本对第一基模型进行训练，直到第一数据源获得T个聚合参数，T为大于或者等于2的整数。

具体步骤如下：

一、第一数据源接收到来自服务器的聚合参数，根据聚合参数与第一基模型构建测试基模型，构建测试基模型的方式为：使用聚合参数对第一基模型中的模型参数进行更新。由于上述聚合参数具有模型的所有参数，第一基模型在测试基模型的构建过程中仅提供了网络结构，故这里构建方式可以是聚合参数与任一个具有相同网络结构的神经网络模型结合生成测试基模型，比如第一基模型在训练过程中的任一时间的神经网络模型。与第一数据源中生成测试基模型的过程相同，J个数据源中除第一数据源外的j-1个第二数据源根据聚合参数与第二基模型构建j-1个测试基模型。

应理解的是，第二基模型也是一个与第一基模型网络结构相同的神经网络模型。也即，上述j个数据源都会基于聚合参数与一个神经网络模型构建测试基模型。

二、第一数据源采用测试基模型对所述第一训练集中的样本进行类别测试，确定第一训练集中的样本对应的预测类别，由于训练集中具有至少两个样本，每一个样本对应有一个第一权重值，每一个样本都对应有真实的类别，对于真实类别和预测类不相符的样本，则该测试基模型对该样本预测错误，累计预测错误的样本的第一权重值，即可获得该测试基模型对第一数据源中的训练集的训练误差，也即该聚合参数对应的训练误差。

三、获得该聚合参数对应的训练误差之后，基于该训练误差，可以计算该聚合参数对应的模型权重，该训练误差代表了基于该聚合参数生成的模型的预测准确率，模型权重用于表示聚合参数在所述最终分类模型中的重要程度，显然相对准确率越高，该聚合参数在最终分类模型中越重要。

四、基于上述模型权重和第一训练集的上一轮训练中的第一样本权重，对第一训练集中的每个样本的权重进行更新，对于在该测试基模型中预测错误的样本增加该样本在下一轮模型训练中的权重，对于在该测试基模型中预测正确的样本减少该样本在下一轮模型训练中的权重，获得更新过样本权重的第一训练集。

五、采用更新后的第一训练集中的样本对第一基模型进行下一轮的模型训练，重复S102-S104的步骤，直到第一数据源获得T个聚合参数，T为大于或者等于2的整数，为了便于说明，这里将每一轮进行训练的基模型都设置为一个双层神经网络模型，实际上，在每一轮的模型训练中使用到的基模型可以是不一样的，其中这里的基模型是指每一轮开始模型训练的第一基模型和第二基模型，也即在两轮不同的模型训练的过程中，第一数据源的第一基模型可以不一样。

应理解的是，上述j个数据源中除第一数据源的j-1个第二数据源也会得到T个聚合参数。

S105，第一数据源根据所述T个聚合参数，获得最终分类模型。

根据每一轮训练中聚合参数的重要程度，即聚合参数对应的模型权重，对T个聚合参数进行聚合，得到集成模型参数。其中，由于每一轮训练都会基于训练误差对第一训练集中的每一个样本的权重进行更新，得到新的第一训练集，使用基于不同的聚合参数生成的测试基模型对第一训练集进行预测，会得到不同的训练误差，进而计算出不同的模型权重，故不同的聚合参数会对应不同的模型权重，最终基于该集成参数生成最终分类模型。

应理解的是，由于j个数据源中的训练集不同，故根据每一轮聚合参数生成的测试基模型的训练效果不同，每一个数据源针对相同的聚合参数的模型权重是不一样的，最终j个数据源会生成适用于数据源本身具有的数据集的不同的最终分类模型。

可选的，在步骤S101-S105之后还包括步骤S106。

S106，采用所述最终分类模型对测试集中的样本进行类别测试。

第一数据源使用第一数据源生成的自适应的最终分类模型对步骤S101中的测试集进行类别测试，获得该最终分类模型的训练误差，即分类准确率。

对于该最终分类模型，若分类准确率大于第一阈值，第一数据源输出提示信息，所述提示信息用于提示最终分类模型训练完成，应理解的是，该第一阈值根据需要选取，可以为50％到100％之间的任一数值。

由于j个数据源中的每一个数据源会生成自适应的最终分类模型，故j个数据源中的每一个数据源都会使用最终分类模型对数据源拥有的测试集进行类别测试，获得模型准确率，不同数据源可以根据自己的需要设置不同的第一阈值，在j个数据源的分类模型都大于对应的第一阈值的情况下，输出提示信息，提示所述最终分类模型训练完成。

由上述可知，首先，在模型训练的每一轮过程中，都会联合多个数据源的数据生成一个聚合参数，而多个数据源的数据量大于单个数据源的数据量，模型训练的数据量越大，得到的模型的准确率就越高；同时各数据源之间也没有传输原始数据，对于本地数据的安全性有课很好的保证；由于相同的聚合参数生成的测试基模型在不同的数据源的不同训练效果，每个聚合参数对应的模型权重也是不一样，最终能够在大量数据支持的情况下，生成适用于不同的数据源的最终分类模型；另外，由于数据源在本地进行的模型训练所适用的训练模型是简单易行的，对于每一个数据源的计算能力要求很低，故参与联合训练的门槛不高，容易实现；另外，在测试阶段设置的第一阈值可以根据需要不同的预设，充分满足各数据源的不同需求。

上述过程主要是以第一数据源的角度对于整个模型训练的过程做说明，下面将以j个数据源和服务器交互的角度对整个过程作解释说明，参见图2，图2是本发明实施例的另一种模型训练方法的流程示意图。进一步地，这里具体以垃圾邮件的识别任务为例，参与模型训练的j个数据源各自具有不同的邮件数据集，包括：

S201，数据准备和模型部署

J个数据源各拥有一个邮件数据集S_k,＝1,2…,，每个数据集的样本个数为|s_k|＝_k，为了便于说明，这里用k表示数据源的编号，表示j个数据源中的任一数据源，即第一数据源。每个数据源按照自定义的比例，将数据集划分为训练集和测试集训练集和测试集的数据分布大致一致，假设训练集和测试集的样本个数分别为/>和/> 则其中0为非垃圾邮件的标签，1为垃圾邮件的标签。

参见图3，图3是模型训练方法中数据参数交互的示意图，提供了步骤S201到步骤S205的过程中，数据源和服务器的数据参数交互过程。

各数据源拥有一个双层神经网络模型，该神经网络的输入神经元为D，输出神经元个数为1，假设隐层神经元个数为L，该模型即为本发明实施例中的第一个基模型。该双层神经网络模型的输出层激活函数为sigmoid，该激活函数主要用于将输出值映射到(0,1)区间。sigmoid函数是神经网络中常用的激活函数，由下列公式定义：

应理解的是，本发明实施例中，每轮训练中使用的基模型不要求一致，为了便于说明，本方案将一轮训练中的基模型都设置为一个双层神经网络模型。

在进行模型训练之前，每个参与方先对各自训练集的分布进行初始化，本发明实施例中将训练集的数据分布具体参数化为每个训练样本的权重，为了实现不同数据源生成个性化集成模型的目标，分别对每个数据源的数据分布进行初始化，即对于第k个数据源，将个训练样本的权重初始化为：

上式中，右上角的标记1表示模型进行第1轮训练，表明在进行第一轮训练的时候，个训练样本的权重相同，均为/>上述样本权重即为样本对应的第一权重值，步骤S201相当于步骤S101中对第一数据源拥有的邮件数据集进行处理并部署双层神经网络模型的步骤。

S202，j个数据源基于各自数据源拥有的训练集进行模型训练。

各数据源基于数据源拥有的训练集进行对双层神经网络基模型进行训练，记第k个数据源在第t轮训练的基模型为损失函数为：

其中表示第k个数据源训练集的第i个样本；

通过梯度下降法等优化算法，对的参数进行迭代更新，直到损失函数的值最小，记此时的模型参数为/>此时的模型参数/>即为第一模型参数，可参见步骤S101中的对第一基模型进行训练的过程。

S203，j个数据源将训练得到的模型参数发送给服务器。

如图3所示，j个数据源基于步骤S202中的损失函数训练基模型后，将基模型的参数传输给中央服务器，详细可参见步骤S102。

S204，服务器聚合接收到的基模型参数并发送给j个数据源。

服务器对来自各数据源的基模型参数进行聚合，采用FedAvg算法中的平均聚合方式，得到第t轮训练的聚合参数G^t,对应的参数为：

如图3所示，服务器将聚合后的聚合参数G^t传输给j个数据源。详细参见步骤S103。

S205，j个数据源基于接收到的聚合参数G^t对于训练集的数据分布进行调整。

对于每个数据源，使用接收到的聚合参数G^t以及在步骤S201部署的双层神经网络模型生成测试基模型，其中上述双层神经网络模型仅提供网络结构，故该测试基模型的生成方式可以为：聚合参数G^t和任一个与上述双层神经网络模型具有相同网络结构的神经网络模型结合生成测试基模型。各数据源采用测试基模型对训练集进行预测，并根据Adaboost中的方法，使用训练误差对训练集的数据分布进行调整，主要包括以下3个步骤：

一、计算测试基模型在数据源拥有的训练集上的预测误差，对于第k个数据源，经过第t轮训练的训练误差为：

其中1为示性函数，th为预先设置的分类阈值，其中该分类阈值的取值范围为大于0且小于1；

对于里层示性函数：1{G^t(x_ki)＞h}，当模型输出结果G^t(x_ki)＞th时，预测类别为1(即判定为垃圾邮件)，否则类别为0(即判定为非垃圾邮件)。

对于外层示性函数：1{1{G^t(x_ki)＞th}≠y_ki}，当预测类别与真实类别不相符时，该样本的类别预测错误；当预测类别与真实类别相符时，该样本的类别预测正确。

将每个预测错误的训练样本的权重求和，即得到该测试基模型在该数据源的训练误差。

二、计算第t个测试基模型对应的聚合参数G^t在最终集成的分类模型中的重要程度，即该聚合参数对应的模型权重。

模型权重系数表示该轮训练得到的G^t在最终集成模型中的重要性，/>为

训练误差，为准确率，/>为相对准确率，显然测试基模型的相对准确率越高，该聚合参数对应的模型权重越大。

三、更新训练集的样本权重，即更新样本对应的第一权重值：

其中：

由上式可知，对于上一轮训练中测试基模型预测错误的样本，该样本对应的权重增加；对于上一轮训练中测试基模型预测正确的样本，该样本对应的权重减少。

更新样本对应的第一权重值后，基于更新过样本对应的第一权重值的训练集开始下一轮的进行步骤S202-步骤S205，即开始下一轮的模型训练，直到获得T个聚合参数，详细可参见步骤S104。

S206，模型集成

经过T轮训练，可以得到T个聚合参数，且每个数据源在每轮训练过程中都计算得到了每个聚合参数在最终集成的分类模型中的模型权重对于第k个数据源，最终集成的模型参数为：

将上述模型参数与一个神经网络模型结合生成最终分类模型，

具体描述可参见步骤S105。

S207，采用最终分类模型对步骤S201中划分的测试集进行类别测试。

其中，实施例步骤S207的具体描述可以参见步骤S106，在此不再赘述。

上面介绍了本发明实施例的方法，下面介绍本发明实施例的装置。

参见图4，图4是本发明实施例提供的一种模型训练装置的组成结构示意图，该装置40包括：

训练模块401，用于获取第一训练集，并采用所述第一训练集中的样本对第一基模型进行训练，获得所述第一基模型收敛时的第一模型参数；

发送模块402，用于将所述第一模型参数发送给所述服务器；

接收模块403，用于从所述服务器获取聚合参数，所述聚合参数是所述服务器根据所述第一模型参数和j-1个第二模型参数聚合得到，所述j-1个第二模型参数来自所述j个数据源中除所述第一数据源外的j-1个第二数据源，一个第二模型参数来自一个第二数据源，所述第二模型参数是所述第二数据源采用第二训练集中的样本对第二基模型进行训练时，所述第二基模型收敛时的参数，所述第二基模型与所述第一基模型为同类型的模型；

更新模块404，用于根据所述聚合参数对所述第一训练集中的样本进行更新，并采用更新后的第一训练集中的样本对所述第一基模型进行训练，直到所述第一数据源获得T个聚合参数，所述T为大于或者等于2的整数；

聚合模块405，用于根据所述T个聚合参数，获得最终分类模型。

结合第二方面，在一种可能的实现方式中，更新模块404，用于根据所述聚合参数对所述第一训练集中的样本进行更新，包括：根据所述聚合参数，构建测试基模型；采用所述测试基模型对所述第一训练集中的样本进行类别测试，确定所述第一训练集中的样本对应的预测类别；根据所述第一训练集中的样本对应的预测类别与所述第一训练集中的样本对应的实际类别之间的误差，确定所述聚合参数对应的训练误差，并根据所述聚合参数对应的训练误差，对所述第一训练集中的样本进行更新。

在一种可能的设计中，所述第一训练集中的样本的当前权重的权重值为第一权重值，更新模块404，用于根据所述聚合参数对应的训练误差，计算所述聚合参数对应的模型权重，所述模型权重用于表示所述聚合参数在所述最终分类模型中的重要程度；所述第一数据源根据所述聚合参数对应的模型权重和所述第一权重值，对所述第一训练集中的样本的当前权重的权重值进行更新。

在一种可能的设计中，所述第一训练集中包括至少两个样本，一个样本对应一个第一权重值，更新模块404，还用于采用所述测试基模型分别对所述至少两个样本中的每个样本进行类别测试，获得每个所述样本对应的预测类别。针对所述至少两个样本中的每个样本，若所述样本对应的预测类别与所述样本对应的实际类别存在误差，则确定所述样本为预测错误样本；更新模块404，还用于获取所述至少两个样本中的至少一个预测错误样本，并将所述至少一个预测错误样本对应的至少一个第一权重值之和确定为所述聚合参数对应的训练误差。

在一种可能的设计中，聚合模块405，用于根据所述T个聚合参数，获得最终分类模型；分别获取所述T个聚合参数中每个聚合参数对应的模型权重，所述模型权重用于表示所述聚合参数在所述最终分类模型中的重要程度；根据所述T个聚合参数中的每个聚合参数和所述每个聚合参数对应的模型权重，获得集成模型参数；聚合模块405根据所述集成模型参数，生成最终分类模型。

在一种可能的设计中，所述装置还包括：测试模块406，用于获取测试集，并采用所述最终分类模型对所述测试集中的样本进行类别测试，确定所述测试集中的样本对应的预测类别；根据所述测试集中的样本对应的预测类别和所述测试集中的样本对应的实际类别之间的误差，确定所述最终分类模型的分类准确率；若所述分类准确率大于第一阈值，所述第一数据源输出提示信息，所述提示信息用于提示所述最终分类模型训练完成。

在一种可能的设计中，所述第一基模型和所述第二基模型为双层神经网络模型。

需要说明的是，图4对应的实施例中未提及的内容可参见方法实施例的描述，这里不再赘述。

本发明实施例中，通过获取第一训练集，并采用第一训练集中的样本对第一基模型进行训练，获得第一基模型收敛时的第一模型参数，将第一模型参数发送给服务器，从上述服务器接收聚合参数，聚合参数是服务器根据第一模型参数和j-1个第二模型参数聚合得到，根据聚合参数对第一训练集中的样本进行更新，并采用更新后的第一训练集中的样本对第一基模型进行，直到获得T个聚合参数，后根据所述T个聚合参数，从而获得最终分类模型。由于在上述模型训练的每一轮的过程中，都会联合多个数据源的数据生成一个聚合参数，数据量大，得到的模型的分类结果就更加准确；同时，由于基于相同聚合参数生成的测试基模型在不同的数据源有不同的训练效果，故每个数据源对相同聚合参数在最终模型参数的重要程度是不一样的，最终能够生成适用于各数据源的个性化的最终分类模型，满足不同数据源的需求。

参见图5，图5是本发明实施例提供的一种模型训练设备的组成结构示意图，该设备50包括处理器501、存储器502以及输入输出接口503。处理器501连接到存储器502和输入输出接口503，例如处理器501可以通过总线连接到存储器502和输入输出接口503。

处理器501被配置为支持所述模型训练设备执行图1-图3所述的模型训练方法中相应的功能。该处理器501可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)，硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(application specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器502用于存储程序代码等。存储器502可以包括易失性存储器(volatilememory，VM)，例如随机存取存储器(random access memory，RAM)；存储器502也可以包括非易失性存储器(non-volatile memory，NVM)，例如只读存储器(read-only memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器502还可以包括上述种类的存储器的组合。

所述输入输出接口503用于输入或输出数据。

处理器501可以调用所述程序代码以执行以下操作：

获取第一训练集，并采用所述第一训练集中的样本对第一基模型进行训练，获得所述第一基模型收敛时的第一模型参数；

将所述第一模型参数发送给所述服务器；

从服务器获取聚合参数，聚合参数是服务器根据第一模型参数和j-1个第二模型参数聚合得到的；

根据聚合参数对第一训练集中的样本进行更新，并采用更新后的第一训练集中的样本对第一基模型进行训练，直到第一数据源获得T个聚合参数，T为大于或者等于2的整数；

根据所述T个聚合参数，获得最终分类模型。

需要说明的是，各个操作的实现还可以对应参照上述方法实施例的相应描述；所述处理器501还可以与输入输出接口503配合执行上述方法实施例中的其他操作。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时使所述计算机执行如前述实施例所述的方法，所述计算机可以为上述提到的模型训练设备的一部分。例如为上述的处理器501。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种模型训练方法，其特征在于，所述方法适用于一种通信***，所述通信***包括服务器和j个数据源，所述j为大于或者等于2的整数，所述方法包括：

所述第一数据源将所述第一模型参数发送给所述服务器；

所述第一数据源根据所述聚合参数，构建测试基模型；

所述第一数据源采用所述测试基模型对所述第一训练集中的样本进行类别测试，确定所述第一训练集中的样本对应的预测类别；

所述第一数据源根据所述第一训练集中的样本对应的预测类别与所述第一训练集中的样本对应的实际类别之间的误差，确定所述聚合参数对应的训练误差；

第一数据源根据所述聚合参数对应的训练误差，计算所述聚合参数对应的模型权重，所述模型权重用于表示所述聚合参数在最终分类模型中的重要程度；

所述第一训练集中的样本的当前权重的权重值为第一权重值，所述第一数据源根据所述聚合参数对应的模型权重和所述第一权重值，对所述第一训练集中的样本的当前权重的权重值进行更新，并采用更新后的第一训练集中的样本对所述第一基模型进行训练，直到所述第一数据源获得T个聚合参数，所述T为大于或者等于2的整数；

所述第一数据源分别获取所述T个聚合参数中每个聚合参数对应的模型权重，所述模型权重用于表示所述聚合参数在所述最终分类模型中的重要程度；

所述第一数据源根据所述T个聚合参数中的每个聚合参数和所述每个聚合参数对应的模型权重，获得集成模型参数；

所述第一数据源根据所述集成模型参数，生成最终分类模型。

2.如权利要求1所述的方法，其特征在于，所述第一训练集中包括至少两个样本，一个样本对应一个第一权重值；

所述第一数据源采用所述测试基模型对所述第一训练集中的样本进行类别测试，确定所述第一训练集中的样本对应的预测类别，包括：

所述第一数据源采用所述测试基模型分别对所述至少两个样本中的每个样本进行类别测试，获得每个所述样本对应的预测类别；

所述第一数据源根据所述第一训练集中的样本对应的预测类别与所述第一训练集中的样本对应的实际类别之间的误差，确定所述聚合参数对应的训练误差，包括：

针对所述至少两个样本中的每个样本，若所述样本对应的预测类别与所述样本对应的实际类别存在误差，则确定所述样本为预测错误样本；

所述第一数据源获取所述至少两个样本中的至少一个预测错误样本，并将所述至少一个预测错误样本对应的至少一个第一权重值之和确定为所述聚合参数对应的训练误差。

3.如权利要求1所述的方法，其特征在于，所述生成最终分类模型之后，还包括：

所述第一数据源获取测试集，并采用所述最终分类模型对所述测试集中的样本进行类别测试，确定所述测试集中的样本对应的预测类别；

所述第一数据源根据所述测试集中的样本对应的预测类别和所述测试集中的样本对应的实际类别之间的误差，确定所述最终分类模型的分类准确率；

若所述分类准确率大于第一阈值，所述第一数据源输出提示信息，所述提示信息用于提示所述最终分类模型训练完成。

4.如权利要求1所述的方法，其特征在于，所述第一基模型和所述第二基模型为双层神经网络模型。

5.一种模型训练装置，其特征在于，所述装置应用于通信***中的第一数据源，所述通信***包括服务器和j个数据源，j为大于或者等于2的整数，所述模型训练装置用于执行如权利要求1-4任一项所述的方法，所述模型训练装置包括：

发送模块，用于将所述第一模型参数发送给所述服务器；

聚合模块，用于根据所述T个聚合参数，获得最终分类模型。

6.一种模型训练设备，其特征在于，包括处理器、存储器以及输入输出接口，所述处理器、存储器和输入输出接口相互连接，其中，所述输入输出接口用于输入或输出数据，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，执行如权利要求1-4任一项所述的方法。

7.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-4任一项所述的方法。