CN114282691A - 一种联邦学习方法、装置、设备、存储介质及计算机程序 - Google Patents

一种联邦学习方法、装置、设备、存储介质及计算机程序 Download PDF

Info

Publication number
CN114282691A
CN114282691A CN202111264081.2A CN202111264081A CN114282691A CN 114282691 A CN114282691 A CN 114282691A CN 202111264081 A CN202111264081 A CN 202111264081A CN 114282691 A CN114282691 A CN 114282691A
Authority
CN
China
Prior art keywords
decision tree
model
target
tree model
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111264081.2A
Other languages
English (en)
Inventor
程勇
蒋杰
韦康
刘煜宏
陈鹏
陶阳宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111264081.2A priority Critical patent/CN114282691A/zh
Publication of CN114282691A publication Critical patent/CN114282691A/zh
Priority to PCT/CN2022/120080 priority patent/WO2023071626A1/zh
Priority to US18/323,014 priority patent/US20230297849A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种联邦学习方法、装置、设备、存储介质及计算机程序,涉及计算机技术领域。该方法包括:从训练数据集对应的数据特征中确定至少一个目标特征;以至少一个目标特征为模型构建基础,得到n个候选决策树模型;基于n个候选决策树模型对训练数据集中训练数据的预测结果,从n个候选决策树模型中确定目标决策树模型;将目标决策树模型发送至第二计算设备,第二计算设备对包括目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型。通过以上方式,第一计算设备在保护数据隐私的条件下向第二计算设备进行一次决策树模型发送,使得构建联邦学习模型的过程更便捷。本申请可应用于云技术、人工智能、智慧交通等各种场景。

Description

一种联邦学习方法、装置、设备、存储介质及计算机程序
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种联邦学习方法、装置、设备、存储介质及计算机程序。
背景技术
随着计算机技术的发展,联邦学习逐渐成为一个热门课题,联邦学习通过多方协作完成机器学习和深度学习模型的训练,在保护用户隐私和数据安全的同时,解决了数据孤岛的问题,联邦学习包括横向联邦学习、纵向联邦学习和联邦迁移学习。
相关技术中,对于横向联邦学习,通常由参与方将加密后的模型参数发送给联邦服务器,联邦服务器对模型参数进行调整后发送给参与方,参与方基于本端数据对模型参数继续调整并再次发送至联邦服务器,联邦服务器与参与方迭代上述调整过程直至模型参数达到标准,停止调整过程,得到联邦训练模型,通过联邦训练模型实现保护数据安全性和隐私性的需求。
然而,在上述过程中,由于联邦服务器与参与方迭代调整模型参数的过程需要消耗大量的通信开销,无法在保证安全的条件下高效地与参与方构建联邦学习模型,无法实现保护数据隐私的同时减少通信消耗。
发明内容
本申请实施例提供了一种联邦学习方法、装置、设备、存储介质及计算机程序,能够在保护数据隐私的条件下减少通信消耗。所述技术方案如下。
一方面,提供了一种联邦学习方法,所述方法包括:
从训练数据集对应的数据特征中确定至少一个目标特征,所述目标特征对应决策树模型中的至少两个决策走向;
以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与所述目标特征的数量对应;
基于所述n个候选决策树模型对所述训练数据集中训练数据的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型;
将所述目标决策树模型发送至第二计算设备,所述第二计算设备用于接收所述第一计算设备发送的所述目标决策树模型,并对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型。
另一方面,提供了另一种联邦学习方法,所述方法包括:
接收第一计算设备发送的目标决策树模型,所述第一计算设备用于从训练数据集对应的数据特征中确定至少一个目标特征,所述目标特征对应决策树模型中的至少两个决策走向;以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与所述目标特征的数量对应;基于所述n个候选决策树模型对所述训练数据集中训练数据的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型;
对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型;
基于所述联邦学习模型,对本端的至少一个分析数据进行数据分析,得到数据分析结果;或者,将所述联邦学习模型发送至所述第一计算设备,所述第一计算设备用于基于所述联邦学习模型,对本端的至少一个分析数据进行数据分析,得到数据分析结果。
另一方面,提供了一种联邦学习***,所述***包括第一计算设备和第二计算设备;
所述第一计算设备,用于从训练数据集对应的数据特征中确定至少一个目标特征,所述目标特征对应决策树模型中的至少两个决策走向;以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与所述目标特征的数量对应;基于所述训练数据集对应所述n个候选决策树模型的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型;将所述目标决策树模型发送至第二计算设备;
所述第二计算设备,用于接收所述第一计算设备发送的所述目标决策树模型;对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型。
另一方面,提供了一种联邦学习装置,所述装置包括:
特征确定模块,用于从训练数据集对应的数据特征中确定至少一个目标特征,所述目标特征对应决策树模型中的至少两个决策走向;
模型获取模块,用于以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与所述目标特征的数量对应;
模型确定模块,用于所述n个候选决策树模型对所述训练数据集中训练数据的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型;
模型发送模块,用于将所述目标决策树模型发送至第二计算设备,所述第二计算设备用于接收所述第一计算设备发送的所述目标决策树模型,并对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型。
另一方面,提供了一种联邦学习装置,所述装置包括:
接收模块,用于接收第一计算设备发送的目标决策树模型,所述第一计算设备用于从训练数据集对应的数据特征中确定至少一个目标特征,所述目标特征对应决策树模型中的至少两个决策走向;以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与所述目标特征的数量对应;基于所述n个候选决策树模型对所述训练数据集中训练数据的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型;
融合模块,用于对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型;
发送模块,用于基于所述联邦学习模型,对本端的至少一个分析数据进行数据分析,得到数据分析结果;或者,将所述联邦学习模型发送至所述第一计算设备,所述第一计算设备用于基于所述联邦学习模型,对本端的至少一个分析数据进行数据分析,得到数据分析结果。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述联邦学习方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的联邦学习方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的联邦学习方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
从本端训练数据集对应的数据特征中确定至少一个目标特征,根据目标特征以及目标特征对应的决策走向构建得到的n个候选决策树模型,为了让候选决策树模型在进行模型预测时的效率更高,基于n个候选决策树模型对训练数据集中训练数据的预测结果,从n个候选决策树模型选择至少一个目标决策树模型,将目标决策树模型发送至第二计算设备,由第二计算设备对至少两个决策树模型进行融合,得到联邦学习模型,第一计算设备基于本端的训练数据得到目标决策树模型,不存在隐私泄露的风险,同时,第一计算设备向第二计算设备发送目标决策树模型的发送过程进行一次,无需让目标决策树模型在第一计算设备和第二计算设备之间多次传输,避免消耗过多的通信开销,构建联邦学习模型的过程更便捷。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的决策树模型示意图;
图2是本申请另一个示例性实施例提供的决策树模型示意图;
图3是本申请一个示例性实施例提供的联邦学习方法的流程图;
图4是本申请另一个示例性实施例提供的联邦学习方法的流程图;
图5是本申请另一个示例性实施例提供的决策树模型示意图;
图6是本申请另一个示例性实施例提供的联邦学习方法的流程图;
图7是本申请另一个示例性实施例提供的联邦学习方法的流程图;
图8是本申请一个示例性实施例提供的联邦学习***的流程图;
图9是本申请另一个示例性实施例提供的联邦学习方法的流程图;
图10是本申请一个示例性实施例提供的联邦学习方法的过程示意图;
图11是本申请另一个示例性实施例提供的联邦学习方法的过程示意图;
图12是本申请另一个示例性实施例提供的联邦学习方法的过程示意图;
图13是本申请一个示例性实施例提供的联邦学习装置的结构框图;
图14是本申请另一个示例性实施例提供的联邦学习装置的结构框图;
图15是本申请另一个示例性实施例提供的联邦学习装置的结构框图;
图16是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
差分隐私(Differential Privacy):与差分隐私相关的一个关键概念是相邻数据集。假设给定两个数据集x和x,如果它们有且仅有一条数据不一样,那么这两个数据集可称为相邻数据集。如果对于一个随机算法
Figure BDA0003324781540000051
,如果其分别作用于这两个相邻数据集得到的两个输出,例如,分别训练得到两个机器学习模型,而难以区分是从哪个数据集获得的输出,那么这个随机算法
Figure BDA0003324781540000052
就被认为满足差分隐私要求。以公式表示,差分隐私ε定义为:
Figure BDA0003324781540000053
其中,o表示输出,ε表示隐私损失度量。该公式含义为:对于任何相邻数据集,训练得到一个特定输出参数的概率都是差不多的。因此,观察者通过观察输出参数很难觉察出数据集的细小变化,通过观察输出参数也就无法反推出具体的某一个训练数据。通过这种方式来达到保护数据隐私的目的。
联邦学习(Federated Learning):联邦学习又称为联合学习,能够在保护用户隐私和数据安全的前提下实现数据的“可用而不可见”,也即通过多方协作完成机器学习模型的训练任务,此外,还能够提供机器学习模型的推理服务。
与传统的集中式机器学习不同,联邦学习过程中,由两个或两个以上的参与方一起协作训练一个或多个机器学习模型。从分类上来说,基于数据的分布特征,联邦学习可以划分为横向联邦学习(Horizontal Federated Learning)、纵向联邦学习(VerticalFederated Learning)和联邦迁移学习(Federated Transfer Learning)。其中,横向联邦学习又称为基于样本的联邦学习,适用于样本集共享相同特征空间但样本空间不同的情况;纵向联邦学习又称为基于特征的联邦学习,适用于样本集共享相同样本空间但特征空间不同的情况;联邦迁移学习则适用于样本集不仅在样本空间上不同而且在特征空间上也不同的情况。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销,无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧变通等,相信随着技术的发展,人工智能技术将在更多的领城得到应用,并发辉越来越重要的价值。
相关技术中,对于横向联邦学习,通常由参与方将加密后的模型参数发送给联邦服务器,联邦服务器对模型参数进行调整后发送给参与方,参与方基于本端数据对模型参数继续调整并再次发送至联邦服务器,联邦服务器与参与方迭代上述调整过程直至模型参数达到标准,停止调整过程,得到联邦训练模型,通过联邦训练模型实现保护数据安全性和隐私性的需求。然而,在上述过程中,由于联邦服务器与参与方迭代调整模型参数的过程需要消耗大量的通信开销,无法在保证安全的条件下高效地与参与方构建联邦学习模型,无法实现保护数据隐私的同时减少通信消耗。
对本申请实施例中构建得到的决策树模型进行说明,本申请实施例提供的联邦学习方法属于横向联邦学习方法,横向联邦学习的应用场景是联邦学习的各个计算设备中,各自的样本数据具有相同的特征空间和不同的样本空间,横向联邦学习的核心思想是让每个第一计算设备在本端使用各自拥有的训练数据训练一个模型,然后由第二计算设备将多个第一计算设备所训练的模型进行融合。示意性的,请参考图1和图2,决策树模型中包括目标特征(包括目标特征111、目标特征211以及目标特征212)、目标特征对应的决策方向(图中目标特征之间以及目标特征和叶子节点之间的0和1)以及叶子节点(无法再划分的节点)。
示意性的,以D作为被选取的目标特征的个数,在确定目标特征以及目标特征对应的决策走向后,根据对叶子节点进行赋值,可以构建得到n个决策树模型,n与D之间的关系如下所示。
Figure BDA0003324781540000071
示意性的,如图1所示,当D=1时,代表选取了一个目标特征111,目标特征111存在两个叶子节点(分别为叶子节点112和叶子节点113)与之对应,对叶子节点以二分类标准进行赋值。例如,对叶子节点进行“0、1”赋值,即将叶子节点112和叶子节点113都提供两种赋值情况——0或1,得到图1中对应的四种决策树模型情况。
同理,如图2所示,当D=2,代表选取了两个目标特征,与目标特征211具有关联关系的关联节点为目标特征212,目标特征212在不同的决策方向上对应生成四个叶子节点,分别为叶子节点213、叶子节点214、叶子节点215以及叶子节点216,对叶子节点以二分类标准进行赋值,例如,对叶子节点进行“0、1”赋值,即将叶子节点213、叶子节点214、叶子节点215以及叶子节点216都提供两种赋值情况——0或者1,得到图2中对应的十六种决策树模型情况。
结合上述名词简介和应用场景,对本申请提供的联邦学***板电脑、便携式膝上笔记本电脑等移动终端,也可以实现为台式电脑等;上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
以该方法应用于第一计算设备为例,如图3所示,该方法包括如下步骤。
步骤310,从训练数据集对应的数据特征中确定至少一个目标特征。
第一计算设备中存储有训练数据集,其中包括至少一个训练数据,示意性的,当第一计算设备为终端时,训练数据包括终端中存储的至少一个训练数据,例如:终端上装有一款理财类应用程序,该理财类应用程序中存储有年龄训练数据、性别训练数据等,其中,性别训练数据用于指示用户填写的与年龄相关的数据;性别训练数据用于指示用户填写的与性别相关的数据。
对于一个训练数据,存在与训练数据对应的数据特征。示意性的,训练数据为一段文本数据,文本内容为“A是一个纹理清晰、根蒂蜷缩的西瓜”,针对该文本首先确定其对应的数据特征,如数据特征包括:纹理、根蒂。
在一个可选的实施例中,从训练数据集对应的数据特征中获得目标特征至少包括以下几种方法。
1.从训练数据集对应的数据特征中随机选择至少一个数据特征作为目标特征。
示意性的,通过随机选择的方法从数据特征中得到目标特征,即等概率地从数据特征中确定目标特征。例如:如上述文本内容A,在得到其数据特征包括“纹理”和“根蒂”后,可以从数据特征中随机选择一个数据特征作为目标特征,如:选择数据特征“纹理”作为目标特征;或者,从数据特征中随机选择两个数据特征作为目标特征,如:将数据特征“纹理”和“根蒂”作为目标特征。
2.基于指数机制,从训练数据集对应的数据特征中选择至少一个数据特征作为目标特征。
在一个可选的实施例中,在从数据特征中选出一个目标特征后,既可以将该目标特征放回数据特征中,即让被选择的目标特征继续参与匹配;也可以不将该目标特征放回数据特征中,即从未被选择的数据特征中继续选择目标特征。以上仅为示意性的举例,本申请实施例对此不加以限定。
其中,目标特征对应决策树模型中的至少两个决策走向,决策走向用于指示目标特征所对应的特征情况,即:目标特征存在至少两种分类情况,如“肯定情况”和“否定情况”等。
可选地,不同的目标特征既可能对应着相同的决策走向,如:不同的目标特征的两种决策走向采用“是”和“否”表示;也可以对应着不同的决策走向,例如:对于上述文本内容A,数据特征“纹理”和数据特征“根蒂”对应不同的决策走向,其中,数据特征“纹理”对应的决策走向包括“清晰”和“模糊”,代表数据特征“纹理”对应包含两种特征情况,分别为“纹理清晰”与“纹理模糊”;数据特征“根蒂”对应的决策走向包括“蜷缩”、“微蜷”和“硬挺”,代表数据特征“根蒂”对应包含三种特征情况,分别为“根蒂蜷缩”、“根蒂微蜷”以及“根蒂硬挺”。
步骤320,以至少一个目标特征为模型构建基础,得到n个候选决策树模型。
其中,n的取值与目标特征的数量对应。
决策树模型是预测模型的一种,用于指示不同的目标特征之间的映射关系,在决策树模型中,目标特征是以节点的形式存在的。
在一个可选的实施例中,通过一个目标特征,可以构建得到一个一维决策树模型,将一个目标特征作为根节点,与该目标特征具有关联关系的节点均为叶子节点,此时该目标特征构建得到一个一维决策树模型。例如:目标特征为“纹理是否清晰”,根据该目标特征生成对应的叶子节点“是”和叶子节点“否”,则由该目标特征独自构建得到一个一维决策树模型。
模型构建基础即上述提及的根节点、内部节点以及目标特征对应的决策走向,通过目标特征以及目标特征对应的决策走向,可以从根节点出发,逐步确定决策树模型中的内部节点,并最终生成对应的叶子节点,实现构建决策树模型的过程。
步骤330,基于n个候选决策树模型对训练数据的预测结果,从n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型。
其中,候选决策树可以通过对训练数据集中的训练数据进行预测,实现判断候选决策树预测效果的目的。示意性的,在根据目标特征得到候选决策树后,从候选决策树中选择一个或者多个预测效果较好的候选决策树模型作为目标决策树模型,其中,预测效果通过训练数据集对应的n个候选决策树模型的预测结果体现。
步骤340,将目标决策树模型发送至第二计算设备。
其中,第二计算设备用于接收第一计算设备发送的目标决策树模型,并对包括目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型。
在一个可选的实施例中,第一计算设备将目标决策树模型对应的参数发送至第二计算设备。示意性的,考虑到基于决策树模型参数可以构建决策树模型的特点,在第一计算设备得到目标决策树模型后,将目标决策树模型对应的参数发送至第二计算设备,第二计算设备可以基于目标决策树模型的参数实现构建得到目标决策树模型的过程。
综上所述,第一计算设备从本端训练数据集对应的数据特征中确定至少一个目标特征,根据目标特征以及目标特征对应的决策走向构建得到的n个候选决策树模型,为了让候选决策树模型在进行模型预测时的效率更高,基于n个候选决策树模型对训练数据集中训练数据的预测结果,从n个候选决策树模型选择至少一个目标决策树模型,将目标决策树模型发送至第二计算设备,由第二计算设备对至少两个决策树模型进行融合,得到联邦学习模型,第一计算设备基于本端的训练数据得到目标决策树模型,不存在隐私泄露的风险,同时,第一计算设备向第二计算设备发送目标决策树模型的发送过程进行一次,无需让目标决策树模型在第一计算设备和第二计算设备之间多次传输,避免消耗过多的通信开销,构建联邦学习模型的过程更便捷。
在一个可选的实施例中,基于目标特征以及目标特征对应的决策走向,生成叶子节点,进而得到候选决策树模型,其中,当候选决策树模型为二分类时,每一个目标特征对应的叶子节点的赋值情况为2种情况。示意性的,如图4所示,上述图3所示出的实施例中的步骤320还可以实现为如下步骤410至步骤430。
步骤410,基于目标特征和决策走向,对应生成至少两个叶子节点。
可选地,将目标特征中的第一目标特征作为决策树模型的根节点。
其中,第一目标特征为所述目标特征中任意一个特征。
根节点为决策树模型的出发点,对于一个决策树模型,存在与该决策树模型对应的唯一根节点。示意性的,根节点位于决策树模型的最顶端,根据根节点构造决策树模型。
可选地,在得到至少两个目标特征后,从至少两个目标特征中任意选择一个目标特征作为第一目标特征,并将该第一目标特征作为决策树模型的根节点,即:以该第一目标特征为出发点,构建决策树模型。
在一个可选的实施例中,在确定决策树模型的根节点后,得到叶子节点包括以下至少一种情况。
1、基于决策走向,对应生成与根节点具有关联关系的叶子节点。
每一个目标特征,都有其对应的决策走向。示意性的,选取一个目标特征作为根节点,该目标特征对应的决策走向包括“是”和“否”两种情况,当该目标特征对应的决策走向为“是”时,对应一个叶子节点;当该目标特征对应的决策走向为“否”时,对应另一个叶子节点,由此,基于一个目标特征可以构建得到一维决策树模型。
2、基于根节点对应的决策走向,确定与根节点具有关联关系的关联节点;基于关联节点对应的决策走向,生成与关联节点具有关联关系的叶子节点。
其中,关联节点用于指示第二目标特征,第二目标特征为目标特征中除第一目标特征之外的任意特征。
示意性的,在随机从目标特征中选择一个第一目标特征作为根节点后,根据第一目标特征对应的决策走向,确定与该根节点具有关联关系的关联节点。例如:当目标特征之间的关联关系采用“是”和“不是”进行划分时(或者,采用“1”和“0”进行划分),对于根节点,当存在目标特征与该根节点具有关联关系时,将该目标特征作为第二目标特征,且该目标特征与第一目标特征不相同,即在选择第二目标特征时,首先从目标特征中排除第一目标特征。
可选地,在构建决策树模型时,目标特征之间的关联关系既可以采用上述“是”或者“不是”的方法进行划分,也可以采用多个关联关系的判断标准,如:“优”、“良”、“中”、“差”等。以上仅为示意性的举例,本申请实施例对此不加以限定。
在一个可选的实施例中,在确定第一目标特征以及第一目标特征对应的决策走向后,基于第一目标特征以及决策走向,确定与第一目标特征具有关联关系的第二目标特征。可选地,为了囊括尽可能多的情况,当决策走向不同时,将相同的第二目标特征作为与第一目标特征具有关联关系的关联节点。之后,基于该第二目标特征以及第二目标特征对应的决策走向,确定与第二目标特征具有关联关系的第三目标特征(或者,以第二目标特征为新的第一目标特征,将根据第二目标特征确定第三目标特征的过程视为根据新的第一目标特征确定新的第二目标特征的过程),重复以上过程,直至无法再根据决策走向确定目标特征,生成与最后一个目标特征具有关联关系的叶子节点。
示意性的,如图5所示,选取两个目标特征构建决策树模型,首先确定根节点为西瓜颜色510,即确定第一目标特征,该第一目标特征对应的决策走向为绿色511和黄色512两种情况,与该第一目标特征具有关联关系的第二目标特征为敲击声音520,即:当第一目标特征的决策走向为绿色511和黄色512时,对应的关联节点为敲击声音520。对于第二目标特征敲击声音520,当西瓜颜色510为绿色511,且敲击声音520对应的决策走向为响521时,生成叶子节点为甜531;当西瓜颜色510为绿色511,且敲击声音520对应的决策走向为不响522时,生成叶子节点为不甜532。同理,当西瓜颜色510为黄色512,且敲击声音520对应的决策走向为响521时,生成叶子节点为不甜532;当西瓜颜色510为黄色512,且敲击声音520对应的决策走向为不响522时,生成叶子节点为不甜532。可选地,根据决策树得到的结论包括:当西瓜颜色为绿色且敲击声音为想时,西瓜是甜的。
步骤420,基于决策树模型的分类数量对至少两个叶子节点分别赋值,得到标注有叶子节点值的至少两个叶子节点。
在一个可选的实施例中,决策树模型为二分类模型,基于二分类模型的二分类标准,对叶子节点进行赋值,得到标注有叶子节点值的至少两个叶子节点。
其中,二分类标准用于指示每个叶子节点存在两种赋值情况。
可选地,为了囊括尽可能多的决策树模型情况,对叶子节点以二分类标准进行赋值,例如,对叶子节点进行“0、1”赋值,即对每一个叶子节点都提供两种赋值情况,当对叶子节点赋值完毕后,得到赋值后的叶子节点,赋值后的叶子节点即对应有叶子节点值的叶子节点,得到的决策树模型与赋值之后的叶子节点相关。
步骤430,基于目标特征、决策走向和标注有叶子节点值的至少两个叶子节点,构建得到n个候选决策树模型。
示意性的,以D作为被选取的目标特征的个数(或者,决策树模型的深度),D为正整数。在确定目标特征以及目标特征对应的决策走向后,根据赋值之后的叶子节点(即:标注有叶子节点值的叶子节点),可以构建得到的决策树模型的个数为n个,n与D之间的关系如下所示。
Figure BDA0003324781540000121
示意性的,如图1所示,当D=1时,代表选取了一个目标特征111,目标特征111存在两个叶子节点(分别为叶子节点112和叶子节点113)与之对应,对叶子节点以二分类标准进行赋值。例如,对叶子节点进行“0、1”赋值,即将叶子节点112和叶子节点113都提供两种赋值情况——0或1,得到图1中对应的四种决策树模型情况,即:
Figure BDA0003324781540000131
叶子节点的赋值情况分别为:叶子节点112赋值为0、叶子节点113赋值为0;以及,叶子节点112赋值为0、叶子节点113赋值为1;以及,叶子节点112赋值为1、叶子节点113赋值为0;以及,叶子节点112赋值为1、叶子节点113赋值为1,由此根据叶子节点赋值情况的不同得到四种决策树模型。
同理,如图2所示,当D=2,代表选取了两个目标特征,与目标特征211具有关联关系的关联节点为目标特征212,目标特征212在不同的决策方向上对应生成四个叶子节点,分别为叶子节点213、叶子节点214、叶子节点215以及叶子节点216,对叶子节点以二分类标准进行赋值,例如,对叶子节点进行“0、1”赋值,即将叶子节点213、叶子节点214、叶子节点215以及叶子节点216都提供两种赋值情况——0或者1,得到图2中对应的十六种决策树模型情况,即:
Figure BDA0003324781540000132
叶子节点的赋值情况分别为:叶子节点213赋值为0、叶子节点214赋值为0、叶子节点215赋值为0、叶子节点216赋值为0;叶子节点213赋值为0、叶子节点214赋值为0、叶子节点215赋值为0、叶子节点216赋值为1等,由此根据叶子节点赋值情况的不同得到十六种决策树模型。
本实施例提供的方法,介绍了决策树模型构建的方法,通过选择得到的目标特征以及目标特征对应的决策走向,对应生成叶子节点,对叶子节点进行赋值,可以更全面地考虑得到的决策树模型的构成方式,得到较多的候选决策树模型。通过上述方法,可以对第一计算设备中训练数据的目标特征和目标特征之间的关系进行更全面的了解以及更直观的展现,便于第二计算设备对决策树模型的融合操作。
在一个可选的实施例中,在得到候选决策树模型后,基于指数机制从候选决策树模型中确定目标决策树模型。示意性的,如图6所示,上述图2所示出的实施例中的步骤230还可以实现为如下步骤610至步骤630。
步骤610,将训练数据集中的训练数据输入候选决策树模型中,确定训练数据对应的预测标签。
示意性的,训练数据集是训练数据的集合,其中包括多个训练数据。决策树模型是通过被选择的目标特征构建得到的,目标特征是训练数据集中训练数据对应的数据特征。可选地,被输入到候选决策树模型中的训练数据既包括提供目标特征的训练数据,也包括在训练数据集中但并未提供目标特征的训练数据。
需要注意的是,训练数据在第一计算设备中可以以分散的形式存在,即训练数据存储在训练数据集中是一个示意性的举例,本申请实施例对此不加以限定。
可选地,在得到候选决策树模型后,从训练数据集中任意选择一个训练数据输入一个候选决策树模型中,根据该训练数据对应的数据特征,确定该训练数据对应的叶子节点。示意性的,训练数据为一个西瓜,该西瓜对应的有多个数据特征,包括西瓜的颜色与敲击西瓜时的声音,当西瓜颜色为黄色,敲击西瓜时的声音为响时,该训练数据对应的叶子节点为“不甜”,将“不甜”作为训练数据“西瓜”对应的预测标签。其中,预测标签即叶子节点对应的叶子节点值。
步骤620,将预测标签与训练数据的参考标签进行匹配,得到预测结果。
其中,参考标签用于指示训练数据的参考分类情况。
可选地,训练数据集中的每一个训练数据分别对应标注有一个参考标签,示意性的,训练数据为一个西瓜,该训练数据对应的参考标签为“甜西瓜”,用于指示该训练数据对应的数据特征可以指示该“西瓜”为“甜西瓜”。
在将一个训练数据输入训练得到的多个候选决策树模型后,可以得到训练数据对应的多个预测标签,预测标签是被输入的候选决策树模型对该训练数据的预测结果,参考标签是预先已知的训练数据的真实结果。可选地,将预测标签与参考标签进行匹配,可以得到该训练数据在多个候选决策树模型中对应的预测结果。
步骤630,基于n个候选决策树模型对训练数据分别对应的预测结果,从n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型。
当将训练数据输入到n个候选决策树模型后,可以根据预测结果判断n个候选决策树模型的预测效果。可选地,根据预测效果,从n个候选决策树模型中选择最好的一个候选决策树模型作为目标决策树模型,或者选择多个效果较好候选决策树模型作为目标决策树模型。
在一个可选的实施例中,基于n个候选决策树模型对训练数据分别对应的预测结果,确定n个候选决策树模型分别对应的匹配分数;基于n个候选决策树模型分别对应的匹配分数,确定至少一个候选决策树模型作为目标决策树模型。
示意性的,采用指数机制方法,将预测标签与真实标签进行匹配,构建候选决策树模型对应的分数函数。示意性的,模型分数函数的公式如下所示。
Figure BDA0003324781540000151
其中,Hi是第i个决策树模型对应的分数函数的函数表示;m用于指示第m个训练数据,m为正整数;n用于指示训练数据集中参与预测的训练数据的个数,n为正整数;
Figure BDA0003324781540000152
用于指示第i个决策树模型和第m个数据的预测标签;ym是第m个训练数据对应的参考标签。其中,当
Figure BDA0003324781540000153
时,则
Figure BDA0003324781540000154
的取值为1;当
Figure BDA0003324781540000155
时,则
Figure BDA0003324781540000156
的取值为0。
可选地,预测结果包括预测成功结果与预测失败结果。其中,预测成功结果用于指示训练数据通过某一个决策树模型后对应的预测标签与该训练数据对应的参考标签相同;预测失败结果用于指示训练数据通过某一个决策树模型后对应的预测标签与该训练数据对应的参考标签不同。
示意性的,以将训练数据m输入候选决策树模型i为例进行说明。在将训练数据m输入候选决策树模型i后,可以根据训练数据m对应的候选决策树模型的叶子节点,确定训练数据m在候选决策树模型i的预测标签
Figure BDA0003324781540000157
(叶子节点对应的叶子节点值),将预测标签
Figure BDA0003324781540000158
与训练数据m对应的参考标签ym进行匹配,得到训练数据m与候选决策树模型i的预测结果。其中,预测结果用于预测标签与参考标签之间的差异程度。基于将训练数据输入n个候选决策树模型后,可以得到训练数据在n个候选决策树模型的预测结果,预测结果可以通过上述的模型分数函数进行确定,即采用匹配分数衡量预测标签与参考标签之间的预测效果。
在一个可选的实施例中,根据预测结果的不同,对应的匹配得到包括以下至少一种情况。
1、响应于预测结果为预测成功结果,对预测成功结果对应的候选决策树模型进行加分评估,得到匹配分数。
示意性的,当预测结果为预测成功结果,即:训练数据通过某一个候选决策树模型后对应的预测标签与该训练数据对应的参考标签相同,则对该候选决策树模型进行加分评估,例如:以将训练数据输入第m个候选决策树模型为例进行说明,设n个候选决策树模型在未预测训练数据前的分数为0,当某一条训练数据经过n个候选决策树模型中的第m个候选决策树模型后,如果通过第m个候选决策树获得的训练数据的预测标签与该训练数据对应的参考标签相同,则对第m个候选决策树模型加1分;同理,若训练数据集中存储100条训练数据,将全部训练数据经过n个候选决策树模型中的第m个候选决策树模型后,如果通过第m个候选决策树获得的100个训练数据的预测标签分别与100个训练数据对应的参考标签相同,则第m个候选决策树模型为100分,即第m个候选决策树对全部训练数据预测成功。
2、响应于预测结果为预测失败结果,对预测失败结果对应的候选决策树模型进行保留评估,得到匹配分数。
示意性的,当预测结果为预测失败结果,即:训练数据通过某一个候选决策树模型后对应的预测标签与该训练数据对应的参考标签不同,则对该候选决策树模型进行保留评估,即对该候选决策树模型的分数保持不变。例如:设n个候选决策树模型在未预测训练数据前的分数为0,当训练数据经过n个候选决策树模型中的第m个候选决策树模型后,训练数据对应的预测标签与该训练数据对应的参考标签不同,则对第m个候选决策树模型的分数保持不变,仍然是0分。
以上仅为示意性的举例,本申请实施例对此不加以限定。
在一个可选的实施例中,基于匹配分数,确定n个候选决策树模型分别对应的选定概率;将选定概率符合预设概率条件的候选决策树模型作为目标决策树模型。
其中,选定概率用于指示候选决策树模型被选定作为目标决策树模型的概率。
示意性的,使用指数差分隐私机制,基于匹配分数,确定n个候选决策树模型分别对应的选定概率,即得到n个决策树模型对应的概率,决策树模型对应的模型概率的表达式如下所示。
Figure BDA0003324781540000161
其中,βi是第i个决策树模型对应的模型概率的函数表示;ε是选择模型时所消耗的隐私开销,是预先设定的正数;S是从候选决策树模型中选择的目标决策树模型的数量,S为正整数;G用于指示构建候选决策树模型以及从候选决策树模型中确定决策树模型过程的重复次数,G既可以为1,即只进行一次,也可以是大于1的正整数,即重复进行多次;Hi是第i个决策树模型对应的分数函数的函数表示;Hj是第j个决策树模型对应的分数函数的函数表示;J用于指示候选决策树模型的索引集合;j用于指示第j个候选决策树模型。
基于候选决策树模型对应的模型概率的确定,将模型概率与预设概率条件进行比较,进而将符合预设概率条件的候选决策树模型作为决策树模型。
示意性的,预设概率条件为选取模型概率最高的X个候选决策树模型,X为正整数,即预设概率条件中包括了模型概率条件和决策树模型条件,其中,模型概率条件可以根据模型概率的排序结果确定,决策树模型条件为被选择的候选决策树模型的个数为X个,例如:当得到候选决策树模型后,将模型概率进行降序排序,得到降序排序结果,选取降序排序结果中前X个模型概率对应的候选决策树模型,将选取得到的候选决策树模型作为决策树模型;或者,预设概率条件为选取模型概率超过0.5的候选决策树,即预设概率条件中设定了模型概率条件,例如:当得到模型概率后,选取超过0.5的模型概率对应的候选决策树模型,将选取得到的候选决策树模型作为决策树模型。
在本申请实施例中,采用指数机制方法从候选决策树模型中得到目标决策树模型,即:将训练数据集中的训练数据输入构建得到的候选决策树模型中,可以确定训练数据在每一个候选决策树模型中对应的预测标签,将预测标签与训练数据对应的参考标签进行匹配,得到的预测结果可以作为确定目标决策树模型的条件。通过上述方法,可以在候选决策树模型中选择预测效果更为优异的目标决策树模型,有利于使得联邦学习模型的融合效果更好。
在一个可选的实施例中,将联邦学习方法应用于第二计算设备,示意性的,如图7所示,该方法包括如下步骤。
步骤710,接收第一计算设备发送的目标决策树模型。
其中,第一计算设备用于从训练数据集对应的数据特征中确定至少一个目标特征,目标特征对应决策树模型中的至少两个决策走向;以至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与目标特征的数量对应;n个候选决策树模型对训练数据集中训练数据的预测结果,从n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型。
步骤720,对包括目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型。
可选地,目标决策树模型存在相同的情况,例如:目标决策树模型中的目标特征、决策走向以及叶子节点的赋值情况相同,当被比较的两个目标决策树模型相同时,对被选择的两个目标决策树模型进行去重操作。示意性的,对被选择的两个目标决策树模型中的任意一个目标决策树模型进行剔除操作,即将该任意一个目标决策树模型进行删除,保留另一个目标决策树模型。
可选地,第二计算设备根据应用场景的不同,包括以下至少一种实现方式。
1、第二计算设备实现为联邦服务器。
其中,联邦服务器是应用于联邦学习场景下的服务器或者终端。可选地,当第二计算设备实现为服务器时,相应地,第一计算设备可以实现为服务器、终端或者终端中的运行服务器等;当第二计算设备实现为终端时,相应地,第一计算设备可以实现为终端、终端上的运行服务器等。
示意性的,当第二计算设备实现为联邦服务器、第一计算设备实现为与联邦服务器相连的多个终端时,第二计算设备接收第一计算设备发送的多个决策树模型,将不同终端发送的多个决策树模型进行融合,得到联邦学习模型。例如:至少两个第一计算设备分别为不同的影视应用程序对应的应用服务器,第二计算设备为用于进行联邦学习的联邦服务器,每个应用服务器中存储有不同的用户标识对应的训练数据,例如训练数据包括用户标识对应的历史交互数据,如:历史观看信息、历史点赞信息或者历史收藏信息等,该历史交互数据为经过用户授权后得到的数据。每个应用服务器采用本申请实施例提供的方法,分别通过本端训练数据库中的目标特征,在本端构建得到多个候选决策树模型,将上述历史交互数据输入多个候选决策树模型中,由多个候选决策树模型对上述历史交互数据进行预测得到预测结果,预测结果包括对该输入的历史交互数据预测得到的用户兴趣点。基于不同的候选决策树模型对历史交互数据的预测结果,从候选决策树模型中选择得到目标决策树模型,目标决策树模型为能够较大程度地反映用户兴趣点的决策树模型,之后,将目标决策树模型发送至联邦服务器,由联邦服务器将多个应用服务器的决策树模型进行融合,得到联邦学习模型,将联邦学习模型发送给各个应用服务器,该联邦学习模型用于向用户进行内容推荐,如基于用户所对应的数据特征推荐符合其兴趣点的物品。
2、第二计算设备实现为联邦计算设备。
其中,联邦计算设备是指不同计算设备之间是并列运行的状态。
示意性的,第一计算设备与第二计算设备为并列运行的两台计算设备,第一计算设备与第二计算设备分别利用本端的训练数据构建得到了多个候选决策树模型,并分别基于指数机制,第一计算设备从候选决策树模型中选择了待发送至第二计算设备的目标决策树模型,第二计算设备从候选决策树模型中选择了待发送至第一计算设备的本端决策树模型。之后,第一计算设备向第二计算设备发送了基于本端训练数据构建、选择得到的多个目标决策树模型,第二计算设备也向第一计算设备发送了基于本端训练数据构建、选择得到的多个本端决策树模型,即第一计算设备与第二计算设备之间进行了决策树模型交换过程,使得彼此可以拥有对方的决策树模型。第一计算设备将本端的多个目标决策树模型和接收到的第二计算设备发送的多个本端决策树模型进行融合;第二计算设备将本端的多个本端决策树模型和接收到的第一计算设备发送的多个目标决策树模型进行融合。通过各自的融合过程,第一计算设备和第二计算设备可以实现在保护用户隐私的前提下,有效挖掘数据价值的目的。
例如:一个第一计算设备和一个第二计算设备分别对应两家电子公司的应用服务器,两台应用服务器中各存储的训练数据为网络故障的排除方法对应的数据。两台应用服务器采用本申请实施例提供的方法,分别通过本端训练数据库中的目标特征,在本端构建得到多个候选决策树模型,将上述网络故障的排除方法对应的数据输入多个候选决策树模型中,由多个候选决策树模型对上述数据进行预测得到预测结果,预测结果包括对该输入数据预测得到的网络故障的排除方法。基于不同的候选决策树模型对上述数据的预测结果,从候选决策树模型中、选择得到决策树模型,该决策树模型为能够较大程度地反映网络故障排除方法的决策树模型,之后,将决策树模型发送至彼方的应用服务器,由各方的应用服务器将本方的决策树模型与彼方的决策树模型进行融合,得到联邦学习模型,便于后续对电子公司新出现的故障问题提供故障排除方法或进行预警,提升设备的故障检测准确率。以上仅为示意性的举例,本申请实施例对此不加以限定。
在一个可选的实施例中,确定与本端决策树模型特征一致的目标决策树模型,得到决策树模型组;基于决策树模型组中的决策树模型分别对应的分类概率,得到平均分类值;基于平均分类值与预设分类阈值的匹配结果,得到联邦学习模型。
示意性的,以一个第一计算设备对应一个第二计算设备为例进行说明。当第二计算设备接收到第一计算设备发送的目标决策树模型后,第二计算设备将本端决策树模型与第一计算设备发送的多个目标决策树模型进行一一比较,可选地,当组成决策树模型的特征相同时,将该本端决策树模型与该目标决策树模型组成一个决策树模型组。示意性的,根据该特征在决策树模型组中任意一个决策树模型中的位置,确定与该特征对应的叶子节点,以该目标特征与任意一个对应的叶子节点为分析对象,确定目标特征到达该叶子节点的概率。例如:特征为“纹理是否清晰”,与之具有关联关系的叶子节点为“坏瓜”,则从该特征“纹理是否清晰”到叶子节点“坏瓜”的概率为0.5,该概率即为该决策树模型对应的分类概率。
可选地,对决策树模型组中其他具有相同的特征以及对应的叶子节点的决策树模型进行上述分类结果运算,得到决策树模型组中其他决策树模型中,从该特征到对应叶子节点的概率。将不同候选训练模型中分类结果对应的概率表示进行均值运算,得到该特征对应分类结果的平均概率。示意性的,预先设定一个预设概率阈值或者根据叶子节点种类的个数确定预设概率阈值,当该目标特征对应分类结果的平均概率超过预设概率阈值时,将超过预设概率阈值的分类结果对应的叶子节点作为联邦学习模型中该目标特征对应的分类结果。
例如:预设概率阈值是根据叶子节点种类的个数确定的,叶子节点种类的个数为2个,分别为“好”与“不好”,预设概率阈值为0.5,当被选定的特征以及与该特征具有相同关联关系下的分类结果的平均概率超过0.5时,将超过0.5的分类结果对应的叶子节点作为联邦学习模型中该目标特征对应的叶子节点,如超过0.5的分类结果对应的叶子节点为“好”时,则将叶子节点“好”作为联邦学习模型中该目标特征以及与该目标特征具有相同关联关系下的叶子节点,构建得到联邦学习模型。
步骤730,基于联邦学习模型,对本端的至少一个分析数据进行数据分析,得到数据分析结果。
可选地,当第二计算设备实现为联邦计算设备时,第二计算设备基于融合得到的联邦学习模型,对本端的分析数据进行数据分析,得到数据分析结果;同理,第一计算设备利用本端构建、选择得到的目标决策树模型以及第二计算设备发送的本端决策树模型,融合得到联邦学习模型,也可以利用该联邦学习模型对第一计算设备存储的分析数据进行数据分析,得到数据分析结果。
步骤740,将联邦学习模型发送至第一计算设备。
其中,第一计算设备用于基于联邦学习模型,对本端的至少一个分析数据进行数据分析,得到数据分析结果。
在一个可选的实施例中,联邦学习模型是第二计算设备基于至少一个第一计算设备发送的多个决策树模型融合得到的,例如:联邦学习模型中融合了多个第一计算设备构建的决策树模型,或者联邦学习模型中融合了一个第一计算设备构建的决策树模型和一个第二计算设备构建的决策树模型,因此,联邦学习模型中融合了多方训练数据的目标特征。示意性的,第二计算设备在得到联邦学习模型后,将联邦学习模型发送给第一计算设备,使得第一计算设备在拥有本端数据的基础上,可以利用联邦学习中包含的其他计算设备(既包括第一计算设备,也包括第二计算设备)中的目标特征,对本端的分析数据进行数据分析,得到数据分析结果,更深层次地挖掘数据价值。
本申请实施例中,介绍了在第二计算设备在得到联邦学习模型后,将联邦学习模型发送给第一计算设备的过程,通过将得到的较为全面、准确的联邦学习模型发送给第一计算设备,可以在保护每个第一计算设备的数据隐私条件下,让每个第一计算设备对本端拥有的数据进行更深层次的挖掘,在避免数据直接传输的基础下,为跨部门、跨组织、跨行业数据合作提供了新的解决方法。
在一个可选的实施例中,以联邦学习***中包括第一计算设备和第二计算设备,且以两个计算设备之间的交互过程为例,对本申请实施例提供的联邦学习方法进行说明。如图8所示,其示出了本申请另一个示例性实施例提供的联邦学习方法的流程图,该方法实现为如下步骤810至步骤860。
步骤810,第一计算设备从训练数据集对应的数据特征中确定至少一个目标特征。
可选地,从训练数据集对应的数据特征中确定目标特征可以采用随机选取方法或者采取基于指数机制的方法。
训练数据对应标注有一个数据标签,将数据特征与数据标签进行匹配得到匹配情况,匹配情况可以采用分数函数表示,分数函数是通过指数机制构建得到的,分数函数的表达式如下所示。
Figure BDA0003324781540000221
Figure BDA0003324781540000222
其中,m表示第m个训练数据,m为正整数;M表示共有M个训练数据,M为正整数;I表示数据特征的集合;n表示第m个训练数据中的第n个数据特征;Xm,n表示第m个训练数据对应的第n个数据特征的独热编码值;ym表示数据标签;
Figure BDA0003324781540000224
表示当Xm,n=ym时输出为1,否则输出为0;
Figure BDA0003324781540000225
表示当1-Xm,n=ym时输出为0,否则输出为1,即Xm,n=ym或者1-Xm,n=ym必有一项成立,均可以使用上述分数函数。
之后,基于指数机制,对预测结果进行归一化操作,确定训练数据对应的每一个训练数据被选中作为目标特征的目标概率。示意性的,目标概率的表达式如下所示。
Figure BDA0003324781540000223
其中,θn表示数据特征被选出的概率,ε1是预先设定的用于数据特征选择的隐私开销总量,是预先设定的正数,ε1/L用于指示在选择L个数据特征时,每次选择数据特征时消耗的隐私开销,Qn表示第n个数据特征的预测结果,用于指示第m个训练数据中的第n个数据特征与第m个训练数据对应的数据标签的匹配情况;I表示数据特征的集合;j表示第j个数据特征,包含于数据特征集合I中;Qj用于指示第j个数据特征的预测结果。
其中,目标特征对应决策树模型中的至少两个决策走向。
步骤820,第一计算设备以至少一个目标特征为模型构建基础,得到n个候选决策树模型。
其中,n的取值与目标特征的数量对应。
步骤830,第一计算设备基于n个候选决策树模型对训练数据集中的训练数据的预测结果,从n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型。
其中,决策树模型是预测模型的一种,用于指示不同的目标特征之间的映射关系,在决策树模型中,目标特征是以节点的形式存在的。以一个决策树模型为例进行说明,决策树模型中包括根节点、叶子节点以及内部节点。节点构建基础即上述提及的根节点、内部节点以及目标特征对应的关联关系,通过目标特征以及目标特征对应的关联关系,可以从根节点出发,逐步确定决策树模型中的内部节点,并最终生成叶子节点,实现构建得到决策树模型的过程。
步骤840,第一计算设备将目标决策树模型发送至第二计算设备。
步骤850,第二计算设备接收第一计算设备发送的目标决策树模型。
步骤860,第二计算设备对包括目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型。
可选地,目标决策树模型存在相同的情况,例如:目标决策树模型中的目标特征、决策走向以及叶子节点的赋值情况相同,当被比较的两个目标决策树模型相同时,对被选择的两个目标决策树模型进行去重操作。示意性的,对被选择的两个目标决策树模型中的任意一个目标决策树模型进行剔除操作,即将该任意一个目标决策树模型进行删除,保留另一个目标决策树模型。
可选地,当多个第一计算设备和一个第二计算设备连接时,在第二计算设备对目标决策树模型进行去重操作后,将保留下的至少两个目标决策树模型进行融合操作,得到联邦决策树模型;当一个第一计算设备和一个第二计算设备连接时,在第二计算设备将彼端发送的目标决策树模型和本端构建、选择得到的本端决策树模型进行去重操作后,将保留下的包括目标决策树模型在内的至少两个决策树模型(目标决策树模型或本端决策树模型)进行融合操作,得到联邦决策树模型。
综上所述,第一计算设备从本端训练数据集对应的数据特征中确定至少一个目标特征,根据目标特征以及目标特征对应的决策走向构建得到的n个候选决策树模型,基于n个候选决策树模型对训练数据集中训练数据的预测结果,从n个候选决策树模型选择至少一个目标决策树模型,将目标决策树模型发送至第二计算设备,由第二计算设备对至少两个决策树模型进行融合,得到联邦学习模型,第一计算设备基于本端的训练数据得到目标决策树模型,不存在隐私泄露的风险,同时,第一计算设备向第二计算设备发送目标决策树模型的发送过程进行一次,无需让目标决策树模型在第一计算设备和第二计算设备之间多次传输,避免消耗过多的通信开销,构建联邦学习模型的过程更便捷。
在一个可选的实施例中,将上述联邦学习模型应用于横向联邦学习中,如图9所示,在本申请实施例提出的技术方案里,横向联邦学习的每个第一计算设备在其本地进行随机特征选择以及决策树模型构造过程,然后将基于指数机制选择得到的决策树模型发送至第二计算设备。第二计算设备对收到的决策树模型进行集成融合,然后将获得的联邦学习模型发送给每个第一计算设备。示意性的,如图9所示,在提出的横向联邦集成学习方法里,联邦学习模型的训练流程实现为如下步骤910至步骤950。
步骤910,第一计算设备从数据特征中随机选择目标特征。
每个第一计算设备在其本地使用其本地拥有的训练数据进行随机的特征选择,例如,对所有特征进行等概率的随机选择。
步骤920,第一计算设备在其本地基于目标特征进行决策树模型构造。
在完成本地特征选择后,各个第一计算设备基于目标特征构造深度为D的决策树模型。
可选地,对于一组特征集(D个特征),由于每个特征有0和1两种情况,对于二分类模型而言,可构造出
Figure BDA0003324781540000241
个决策树模型。考虑第i个决策树模型和第m个数据,以及该训练数据对应的叶子节点值
Figure BDA0003324781540000242
,分数函数可通过预测结果
Figure BDA0003324781540000243
得到。使用指数差分隐私机制,在T个决策树模型中选择S个决策树模型。将随机选择D个特征与构造决策树模型重复进行G次,共可获得(G*S)个深度为D的决策树模型。
在一个可选的实施例中,上述步骤910至步骤920可以实现为图10。首先基于训练数据得到训练数据对应的N维特征1010,之后,从N维特征中随机选择出来D个目标特征1020。之后,基于D个目标特征得到的T个二分类决策树模型1030,其中,
Figure BDA0003324781540000244
之后基于指数机制进行决策树模型选择1040,从T个决策树模型中选择出S个决策树模型1050。可选地,在得到S个决策树模型后,将选择出D个目标特征1020的过程至选择出S个决策树模型1050的过程重复G次,即生成G组模型,得到G*S个模型。
步骤930,第一计算设备将本地模型参数发送给第二计算设备。
在完成本地模型训练之后,各个第一计算设备将其本地获得的模型以明文的形式发送给第二计算设备。每个第一计算设备可生成G*S个模型,且每个模型中包含决策树模型对应的模型参数,包括:目标特征,决策走向以及相应的叶子节点值。
步骤940,联邦服务器对收到的本地模型进行集成融合。
在收到至少一个第一计算设备发送的本地模型或者模型参数后,第二计算设备对收到的本地模型进行集成融合,得到联邦学***均值决定。对于某一条待分类数据,如果第一计算设备本地模型的分类结果的平均值大于0.5,则联邦投票模型的分类结果就取“正类”。反之,如果第一计算设备本地模型的分类结果的平均值小于0.5,则联邦投票模型的分类结果就取“负类”。当二者相等时,可以简单采用随机选择的方式。因为多个第一计算设备且使用指数差分隐私机制,那么可能出现选出模型重复的情况,进行融合前,将重复模型进行去重,即重复模型只保留其一。
步骤950,第二计算设备将联邦学习模型发送给各个第一计算设备。
可选地,联邦学习模型是第二计算设备基于各个第一计算设备发送的多个决策树模型融合得到的,示意性的,第二计算设备在得到联邦学习模型后,将联邦学习模型发送给第一计算设备,使得第一计算设备在拥有本端数据的基础上,可以利用联邦学习中包含的其他计算设备(既包括第一计算设备,也包括第二计算设备)中的目标特征,对本端的分析数据进行数据分析,得到数据分析结果,更深层次地挖掘数据价值。
本申请实施例提出了一种基于指数机制的决策树的联邦集成学习方法,并行更新的横向联邦学习方法。示意性的,上述步骤911至步骤950的过程可以实现为图11,如图11所示,模型训练***包括一个第二计算设备1120和一个第一计算设备1111。每个第一计算设备1111中存储有多个训练数据,每个训练数据对应标注有一个数据标签,并对应多个数据特征。
第一计算设备1111:第一计算设备1111从数据特征中随机选择目标特征;之后,第一计算设备1111根据所选择的目标特征,通过枚举构建决策树模型,并使用指数机制的方法,从候选决策树中选择能够较好体现训练数据的决策树模型,实现基于指数机制的决策树模型选择过程;最后,第一计算设备1111将决策树模型发送至第二计算设备1120,实现模型上传过程。
第二计算设备1120:第二计算设备1120接收第一计算设备1111发送的决策树模型后,对决策树模型进行融合。
本申请实施例提出了一种基于指数机制和决策树的联邦集成学习方法,并行更新的横向联邦学习方法。示意性的,上述步骤910至步骤950的过程可以实现为图12,如图12所示,模型训练***包括一个第二计算设备1220和k个第一计算设备1210,其中,k为大于1的整数。每个第一计算设备1210中存储有多个训练数据,每个训练数据对应标注有一个数据标签,并对应多个数据特征。
第一计算设备1210:第一计算设备1210从数据特征中随机选择目标特征;之后,第一计算设备1210根据所选择的目标特征,通过枚举构建决策树模型,并使用指数机制的方法,从候选决策树中选择能够较好体现训练数据的决策树模型,实现基于指数机制的决策树模型选择过程;最后,第一计算设备1210将决策树模型发送至第二计算设备1220,实现模型发送过程。
第二计算设备1220:第二计算设备1220接收第一计算设备1210发送的决策树模型后,对决策树模型进行融合。
需要说明的是,在训练联邦学习模型的过程中,每个第一计算设备均会向第二计算设备发送决策树模型。在一个可选地实施例中,不同的第一计算设备向第二计算设备发送决策树模型的过程可以实现为并列发送、依次发送等多种形式,相同的第一计算设备在向第二计算设备发送决策树模型时也可能存在并列发送、依次发送等情况,本申请实施例对此不加以限定。
综上所述,第一计算设备从本端训练数据集对应的数据特征中确定至少一个目标特征,根据目标特征以及目标特征对应的决策走向构建得到的n个候选决策树模型,之后,基于n个候选决策树模型对训练数据集中训练数据的预测结果,从n个候选决策树模型选择至少一个目标决策树模型,然后将决策树模型发送至第二计算设备,由第二计算设备对至少两个决策树模型进行融合,得到联邦学习模型。通过以上方式,使得第一计算设备基于本端的训练数据得到目标决策树模型,不存在隐私泄露的风险,同时无需让目标决策树模型在第一计算设备和第二计算设备之间多次传输,避免消耗过多的通信开销,使得构建联邦学习模型的过程更便捷。
图13是本申请一个示例性实施例提供的联邦学习装置的结构框图,如图13所示,该装置包括如下部分:
特征确定模块1310,用于从训练数据集对应的数据特征中确定至少一个目标特征,所述目标特征对应决策树模型中的至少两个决策走向;
模型获取模块1320,用于以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与所述目标特征的数量对应;
模型确定模块1330,用于基于所述n个候选决策树模型对所述训练数据集中训练数据的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型;
模型发送模块1340,用于将所述目标决策树模型发送至第二计算设备,所述第二计算设备用于接收所述第一计算设备发送的所述目标决策树模型,并对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型。
如图14所示,在一个可选的实施例中,所述模型获取模块1320包括:
生成单元1321,用于基于所述目标特征和所述决策走向,对应生成至少两个叶子节点;
赋值单元1322,用于基于决策树模型的分类数量对所述至少两个叶子节点分别赋值,得到标注有叶子节点值的至少两个叶子节点;
构建单元1323,用于基于所述目标特征、所述决策走向和所述标注有叶子节点值的至少两个叶子节点,构建得到所述n个候选决策树模型。
在一个可选的实施例中,所述决策树模型为二分类模型;
所述赋值单元1322用于基于二分类模型的二分类标准,对所述叶子节点进行赋值,得到标注有叶子节点值的至少两个叶子节点,所述二分类标准用于指示每个叶子节点存在两种赋值情况。
在一个可选的实施例中,生成单元1321用于将所述目标特征中的第一目标特征作为所述决策树模型的根节点,所述第一目标特征为所述目标特征中任意一个特征;基于所述决策走向,对应生成与所述根节点具有关联关系的所述叶子节点;或者,基于所述根节点对应的决策走向,确定与所述根节点具有关联关系的关联节点,所述关联节点用于指示第二目标特征,所述第二目标特征为所述目标特征中除所述第一目标特征之外的任意特征;基于所述关联节点对应的决策走向,生成与所述关联节点具有关联关系的叶子节点。
在一个可选的实施例中,所述模型确定模块1330包括:
输入单元1331,用于将所述训练数据集中的训练数据输入所述候选决策树模型中,确定所述训练数据对应的预测标签;
匹配单元1332,用于将所述预测标签与所述训练数据的参考标签进行匹配,得到预测结果,所述参考标签用于指示所述训练数据的参考分类情况;
确定单元1333,用于基于所述n个候选决策树模型对所述训练数据分别对应的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型。
在一个可选的实施例中,所述确定单元1333用于基于所述n个候选决策树模型对所述训练数据分别对应的预测结果,确定n个候选决策树模型分别对应的匹配分数;基于n个候选决策树模型分别对应的匹配分数,确定至少一个候选决策树模型作为所述目标决策树模型。
在一个可选的实施例中,所述确定单元1333还用于基于所述匹配分数,确定n个候选决策树模型分别对应的选定概率,所述选定概率用于指示所述候选决策树模型被选定作为所述目标决策树模型的概率;将所述选定概率符合预设概率条件的候选决策树模型作为所述目标决策树模型。
在一个可选的实施例中,所述预测结果包括预测成功结果或预测失败结果;
所述确定单元1333还用于响应于所述预测结果为所述预测成功结果,对所述预测成功结果对应的候选决策树模型进行加分评估,得到所述匹配分数;或者,响应于所述预测结果为所述预测失败结果,对所述预测失败结果对应的候选决策树模型进行保留评估,得到所述匹配分数。
在一个可选的实施例中,所述特征确定模块1310用于从所述训练数据集对应的所述数据特征中随机选择至少一个数据特征作为所述目标特征;或者,基于指数机制,从所述训练数据集对应的所述数据特征中选择至少一个数据特征作为所述目标特征。
图15是本申请另一个示例性实施例提供的联邦学习装置的结构框图,如图15所示,该装置包括如下部分:
接收模块1510,用于接收第一计算设备发送的目标决策树模型,所述第一计算设备用于从训练数据集对应的数据特征中确定至少一个目标特征,所述目标特征对应决策树模型中的至少两个决策走向;以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与所述目标特征的数量对应;基于所述n个候选决策树模型对所述训练数据集中训练数据的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型;
融合模块1520,用于对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型;
发送模块1530,用于基于所述联邦学习模型,对本端的至少一个分析数据进行数据分析,得到数据分析结果;或者,将所述联邦学习模型发送至所述第一计算设备,所述第一计算设备用于基于所述联邦学习模型,对本端的至少一个分析数据进行数据分析,得到数据分析结果。
在一个可选的实施例中,所述融合模块1520用于基于本端训练数据集对应的数据特征,得到本端决策树模型;将所述本端决策树模型与所述目标决策树模型进行融合,得到所述联邦学习模型。
在一个可选的实施例中,所述融合模块1520还用于确定与所述本端决策树模型特征一致的目标决策树模型,得到决策树模型组;基于所述决策树模型组中的决策树模型分别对应的分类概率,得到平均分类值;基于所述平均分类值与预设分类阈值的匹配结果,得到所述联邦学习模型。
需要说明的是:上述实施例提供的联邦学习装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的联邦学习装置与联邦学习方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图16示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器1600包括中央处理单元(Central Processing Unit,CPU)1601、包括随机存取存储器(RandomAccess Memory,RAM)1602和只读存储器(Read Only Memory,ROM)1603的***存储器1604,以及连接***存储器1604和中央处理单元1601的***总线1605。服务器1600还包括用于存储操作***1613、应用程序1614和其他程序模块1615的大容量存储设备1606。
大容量存储设备1606通过连接到***总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。大容量存储设备1606及其相关联的计算机可读介质为服务器1600提供非易失性存储。也就是说,大容量存储设备1606可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器1604和大容量存储设备1606可以统称为存储器。
根据本申请的各种实施例,服务器1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1600可以通过连接在***总线1605上的网络接口单元1611连接到网络1612,或者说,也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机***(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的联邦学习方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的联邦学习方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的联邦学习方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (18)

1.一种联邦学习方法,其特征在于,应用于第一计算设备,所述方法包括:
从训练数据集对应的数据特征中确定至少一个目标特征,所述目标特征对应决策树模型中的至少两个决策走向;
以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与所述目标特征的数量对应;
基于所述n个候选决策树模型对所述训练数据集中训练数据的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型;
将所述目标决策树模型发送至第二计算设备,所述第二计算设备用于接收所述第一计算设备发送的所述目标决策树模型,并对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型。
2.根据权利要求1所述的方法,其特征在于,所述以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,包括:
基于所述目标特征和所述决策走向,对应生成至少两个叶子节点;
基于决策树模型的分类数量对所述至少两个叶子节点分别赋值,得到标注有叶子节点值的至少两个叶子节点;
基于所述目标特征、所述决策走向和所述标注有叶子节点值的至少两个叶子节点,构建得到所述n个候选决策树模型。
3.根据权利要求2所述的方法,其特征在于,所述决策树模型为二分类模型;
所述基于决策树模型的分类数量对所述至少两个叶子节点分别赋值,得到标注有叶子节点值的至少两个叶子节点,包括:
基于二分类模型的二分类标准,对所述叶子节点进行赋值,得到标注有叶子节点值的至少两个叶子节点,所述二分类标准用于指示每个叶子节点存在两种赋值情况。
4.根据权利要求2所述的方法,其特征在于,所述基于所述目标特征和所述决策走向,对应生成至少两个叶子节点,包括:
将所述目标特征中的第一目标特征作为所述决策树模型的根节点,所述第一目标特征为所述目标特征中任意一个特征;
基于所述决策走向,对应生成与所述根节点具有关联关系的所述叶子节点;或者,基于所述根节点对应的决策走向,确定与所述根节点具有关联关系的关联节点,所述关联节点用于指示第二目标特征,所述第二目标特征为所述目标特征中除所述第一目标特征之外的任意特征;基于所述关联节点对应的决策走向,生成与所述关联节点具有关联关系的叶子节点。
5.根据权利要求2所述的方法,其特征在于,所述基于所述n个候选决策树模型对所述训练数据集中训练数据的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型,包括:
将所述训练数据集中的训练数据输入所述候选决策树模型中,确定所述训练数据对应的预测标签;
将所述预测标签与所述训练数据的参考标签进行匹配,得到预测结果,所述参考标签用于指示所述训练数据的参考分类情况;
基于所述n个候选决策树模型对所述训练数据分别对应的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述n个候选决策树模型对所述训练数据分别对应的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型,包括:
基于所述n个候选决策树模型对所述训练数据分别对应的预测结果,确定n个候选决策树模型分别对应的匹配分数;
基于n个候选决策树模型分别对应的匹配分数,确定至少一个候选决策树模型作为所述目标决策树模型。
7.根据权利要求6所述的方法,其特征在于,所述基于n个候选决策树模型分别对应的匹配分数,确定至少一个候选决策树模型作为所述目标决策树模型,包括:
基于所述匹配分数,确定n个候选决策树模型分别对应的选定概率,所述选定概率用于指示所述候选决策树模型被选定作为所述目标决策树模型的概率;
将所述选定概率符合预设概率条件的候选决策树模型作为所述目标决策树模型。
8.根据权利要求6所述的方法,其特征在于,所述预测结果包括预测成功结果或预测失败结果;
所述基于所述n个候选决策树模型对所述训练数据分别对应的预测结果,确定n个候选决策树模型分别对应的匹配分数,包括:
响应于所述预测结果为所述预测成功结果,对所述预测成功结果对应的候选决策树模型进行加分评估,得到所述匹配分数;
或者,
响应于所述预测结果为所述预测失败结果,对所述预测失败结果对应的候选决策树模型进行保留评估,得到所述匹配分数。
9.根据权利要求1至8任一所述的方法,其特征在于,所述从训练数据集对应的数据特征中确定至少一个目标特征,包括:
从所述训练数据集对应的所述数据特征中随机选择至少一个数据特征作为所述目标特征;
或者,
基于指数机制,从所述训练数据集对应的所述数据特征中选择至少一个数据特征作为所述目标特征。
10.一种联邦学习方法,其特征在于,应用于第二计算设备中,所述方法包括:
接收第一计算设备发送的目标决策树模型,所述第一计算设备用于从训练数据集对应的数据特征中确定至少一个目标特征,所述目标特征对应决策树模型中的至少两个决策走向;以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与所述目标特征的数量对应;基于所述n个候选决策树模型对所述训练数据集中训练数据的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型;
对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型;
基于所述联邦学习模型,对本端的至少一个分析数据进行数据分析,得到数据分析结果;或者,将所述联邦学习模型发送至所述第一计算设备,所述第一计算设备用于基于所述联邦学习模型,对本端的至少一个分析数据进行数据分析,得到数据分析结果。
11.根据权利要求10所述的方法,其特征在于,所述对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型,包括:
基于本端训练数据集对应的数据特征,得到本端决策树模型;
将所述本端决策树模型与所述目标决策树模型进行融合,得到所述联邦学习模型。
12.根据权利要求10或11所述的方法,其特征在于,所述将所述本端决策树模型与所述目标决策树模型进行融合,得到所述联邦学习模型,包括:
确定与所述本端决策树模型特征一致的目标决策树模型,得到决策树模型组;
基于所述决策树模型组中的决策树模型分别对应的分类概率,得到平均分类值;
基于所述平均分类值与预设分类阈值的匹配结果,得到所述联邦学习模型。
13.一种联邦学习***,其特征在于,所述联邦学习***包括第一计算设备和第二计算设备;
所述第一计算设备,用于从训练数据集对应的数据特征中确定至少一个目标特征,所述目标特征对应决策树模型中的至少两个决策走向;以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与所述目标特征的数量对应;基于所述n个候选决策树模型对所述训练数据集中训练数据的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型;将所述目标决策树模型发送至第二计算设备;
所述第二计算设备,用于接收所述第一计算设备发送的所述目标决策树模型;对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型。
14.一种联邦学习装置,其特征在于,所述装置包括:
特征确定模块,用于从训练数据集对应的数据特征中确定至少一个目标特征,所述目标特征对应决策树模型中的至少两个决策走向;
模型获取模块,用于以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与所述目标特征的数量对应;
模型确定模块,用于基于所述n个候选决策树模型对所述训练数据集中训练数据的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型;
模型发送模块,用于将所述目标决策树模型发送至第二计算设备,所述第二计算设备用于接收所述第一计算设备发送的所述目标决策树模型,并对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型。
15.一种联邦学习装置,其特征在于,所述装置包括:
接收模块,用于接收第一计算设备发送的目标决策树模型,所述第一计算设备用于从训练数据集对应的数据特征中确定至少一个目标特征,所述目标特征对应决策树模型中的至少两个决策走向;以所述至少一个目标特征为模型构建基础,得到n个候选决策树模型,n的取值与所述目标特征的数量对应;基于所述n个候选决策树模型对所述训练数据集中训练数据的预测结果,从所述n个候选决策树模型中确定至少一个候选决策树模型作为目标决策树模型;
融合模块,用于对包括所述目标决策树模型的至少两个决策树模型进行融合,得到联邦学习模型;
发送模块,用于基于所述联邦学习模型,对本端的至少一个分析数据进行数据分析,得到数据分析结果;或者,将所述联邦学习模型发送至所述第一计算设备,所述第一计算设备用于基于所述联邦学习模型,对本端的至少一个分析数据进行数据分析,得到数据分析结果。
16.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的联邦学习方法。
17.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一所述的联邦学习方法。
18.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至12任一所述的联邦学习方法。
CN202111264081.2A 2021-10-27 2021-10-27 一种联邦学习方法、装置、设备、存储介质及计算机程序 Pending CN114282691A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111264081.2A CN114282691A (zh) 2021-10-27 2021-10-27 一种联邦学习方法、装置、设备、存储介质及计算机程序
PCT/CN2022/120080 WO2023071626A1 (zh) 2021-10-27 2022-09-21 一种联邦学习方法、装置、设备、存储介质及产品
US18/323,014 US20230297849A1 (en) 2021-10-27 2023-05-24 Federated learning method and device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111264081.2A CN114282691A (zh) 2021-10-27 2021-10-27 一种联邦学习方法、装置、设备、存储介质及计算机程序

Publications (1)

Publication Number Publication Date
CN114282691A true CN114282691A (zh) 2022-04-05

Family

ID=80868766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111264081.2A Pending CN114282691A (zh) 2021-10-27 2021-10-27 一种联邦学习方法、装置、设备、存储介质及计算机程序

Country Status (3)

Country Link
US (1) US20230297849A1 (zh)
CN (1) CN114282691A (zh)
WO (1) WO2023071626A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071626A1 (zh) * 2021-10-27 2023-05-04 腾讯科技(深圳)有限公司 一种联邦学习方法、装置、设备、存储介质及产品
CN116796860A (zh) * 2023-08-24 2023-09-22 腾讯科技(深圳)有限公司 联邦学习方法、装置、电子设备及存储介质
CN117035125A (zh) * 2023-10-09 2023-11-10 中电科大数据研究院有限公司 一种分布式人工智能模型的决策平台、方法及装置
WO2023241042A1 (zh) * 2022-06-13 2023-12-21 中兴通讯股份有限公司 故障预测方法、装置、电子设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102587263B1 (ko) * 2023-02-27 2023-10-12 주식회사 노타 인공지능 기반의 모델의 벤치마크 결과를 제공하기 위한 방법 및 디바이스
CN116757286B (zh) * 2023-08-16 2024-01-19 杭州金智塔科技有限公司 基于联邦学习的多方联合因果树模型构建***以及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190213446A1 (en) * 2016-06-30 2019-07-11 Intel Corporation Device-based anomaly detection using random forest models
US11972334B2 (en) * 2019-08-13 2024-04-30 Sony Corporation Method and apparatus for generating a combined isolation forest model for detecting anomalies in data
CN113297175A (zh) * 2021-05-26 2021-08-24 Oppo广东移动通信有限公司 数据处理方法、装置、***和可读存储介质
CN113515760B (zh) * 2021-05-28 2024-03-15 平安国际智慧城市科技股份有限公司 横向联邦学习方法、装置、计算机设备和存储介质
CN114282691A (zh) * 2021-10-27 2022-04-05 腾讯科技(深圳)有限公司 一种联邦学习方法、装置、设备、存储介质及计算机程序

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023071626A1 (zh) * 2021-10-27 2023-05-04 腾讯科技(深圳)有限公司 一种联邦学习方法、装置、设备、存储介质及产品
WO2023241042A1 (zh) * 2022-06-13 2023-12-21 中兴通讯股份有限公司 故障预测方法、装置、电子设备及存储介质
CN116796860A (zh) * 2023-08-24 2023-09-22 腾讯科技(深圳)有限公司 联邦学习方法、装置、电子设备及存储介质
CN116796860B (zh) * 2023-08-24 2023-12-12 腾讯科技(深圳)有限公司 联邦学习方法、装置、电子设备及存储介质
CN117035125A (zh) * 2023-10-09 2023-11-10 中电科大数据研究院有限公司 一种分布式人工智能模型的决策平台、方法及装置
CN117035125B (zh) * 2023-10-09 2024-01-02 中电科大数据研究院有限公司 一种分布式人工智能模型的决策***、方法及装置

Also Published As

Publication number Publication date
US20230297849A1 (en) 2023-09-21
WO2023071626A1 (zh) 2023-05-04

Similar Documents

Publication Publication Date Title
CN114282691A (zh) 一种联邦学习方法、装置、设备、存储介质及计算机程序
US10692006B1 (en) Crowdsourced chatbot answers
CN111680219A (zh) 内容推荐方法、装置、设备及可读存储介质
CN111177473B (zh) 人员关系分析方法、装置和可读存储介质
CN110781406B (zh) 一种基于变分自动编码器的社交网络用户多属性推断方法
CN111008336A (zh) 一种内容推荐方法、装置、设备及可读存储介质
CN113392359A (zh) 多目标预测方法、装置、设备及存储介质
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
Asim et al. Significance of machine learning algorithms in professional blogger's classification
CN108304428A (zh) 信息推荐方法及装置
CN110245310B (zh) 一种对象的行为分析方法、装置及存储介质
CN113515690A (zh) 内容召回模型的训练方法、内容召回方法、装置及设备
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
CN112036483B (zh) 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN114299321A (zh) 视频分类方法、装置、设备及可读存储介质
CN111291563B (zh) 词向量对齐方法和词向量对齐模型训练方法
CN113807415B (zh) 联邦特征选择方法、装置、计算机设备和存储介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN114330476A (zh) 用于媒体内容识别的模型训练方法及媒体内容识别方法
CN116150425A (zh) 推荐内容的选择方法、装置、设备、存储介质及程序产品
CN111767953A (zh) 用于训练物品编码模型的方法和装置
CN115203557A (zh) 内容推荐模型的生成方法、装置、设备、存储介质及产品
CN116958624A (zh) 指定材质的识别方法、装置、设备、介质及程序产品
CN115017362A (zh) 数据处理方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070816

Country of ref document: HK