CN110991552A - 基于联邦学习的孤立森林模型构建和预测方法和装置 - Google Patents
基于联邦学习的孤立森林模型构建和预测方法和装置 Download PDFInfo
- Publication number
- CN110991552A CN110991552A CN201911288850.5A CN201911288850A CN110991552A CN 110991552 A CN110991552 A CN 110991552A CN 201911288850 A CN201911288850 A CN 201911288850A CN 110991552 A CN110991552 A CN 110991552A
- Authority
- CN
- China
- Prior art keywords
- node
- party
- data
- feature
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Bioethics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Devices For Executing Special Programs (AREA)
- Image Analysis (AREA)
Abstract
本说明书实施例提供了一种基于联邦学习构建孤立森林模型的方法和装置,所述方法包括:获取与第一节点对应的多个样本标识,多个样本标识与多个样本分别对应,每个样本包括m个特征的特征值;从m个特征标识中随机选择一个特征标识;在所述选择的特征标识为第一特征标识的情况中,基于本地存储第一特征标识与第一数据方的对应关系,将第一节点的标识、多个样本标识和第一特征标识发送给第一数据方;记录第一节点与第一数据方的对应关系;从第一数据方接收与第一节点的两个子节点分别对应的信息,从而在保护各数据方私有数据的同时构建孤立森林模型以用于进行业务处理。
Description
技术领域
本说明书实施例涉及机器学习技术领域,更具体地,涉及基于联邦学习构建孤立森林模型的方法和装置、以及基于联邦学习通过孤立森林模型预测对象异常性的方法和装置。
背景技术
目前,越来越多的作为数据拥有方的互联网企业开始关注数据隐私和数据安全问题。孤立森林模型是一种预测异常对象的无监督学习模型,该模型例如可用于对用户行为进行分析来识别异常行为,从而保护用户资金的安全,比如盗用风险防控、欺诈风险防控等等。然而在上述场景下的数据建模往往是在数据融合(即数据中心化存储/可见)的条件下进行的,这样往往要求不同来源的数据需要完全暴露给对方才能完成建模分析工作,这在隐私数据的层面是有很大风险的。因此,需要一种更有效的保护私有数据的孤立森林模型构建和使用方案。
发明内容
本说明书实施例旨在提供一种更有效的保护私有数据的孤立森林模型构建和使用方案,以解决现有技术中的不足。
为实现上述目的,本说明书一个方面提供一种基于联邦学习构建孤立森林模型的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述方法由计算方的设备相对于所述模型中的第一树中的第一节点执行,所述至少两个数据方包括第一数据方,所述计算方设备中预先存储了m个特征标识与各个数据方的对应关系,所述m个特征标识分别为m个特征各自的预定标识,所述方法包括:
获取与第一节点对应的多个样本标识,所述多个样本标识与多个样本分别对应,每个样本包括所述m个特征的特征值;
从所述m个特征标识中随机选择一个特征标识;
在所述选择的特征标识为第一特征标识的情况中,基于本地存储第一特征标识与第一数据方的对应关系,将所述第一节点的标识、所述多个样本标识和所述第一特征标识发送给所述第一数据方;
记录所述第一节点与所述第一数据方的对应关系;
从所述第一数据方接收与所述第一节点的两个子节点分别对应的信息,从而构建孤立森林模型以用于进行业务处理。
在一个实施例中,所述第一节点为根节点,其中,获取与第一节点对应的多个样本标识包括,获取N个样本标识,从所述N个样本标识中随机获取n个样本标识,其中N>n。
在一个实施例中,所述两个子节点中包括第二节点,与所述第二节点对应的信息包括,所述第二节点为叶子节点,所述方法还包括,记录所述第二节点标识与所述第一数据方的对应关系。
在一个实施例中,所述两个子节点中包括第三节点,与所述第三节点对应的信息包括,分到所述第三节点的u个样本标识,其中,所述u个样本标识为所述多个样本标识中的一部分。
在一个实施例中,所述至少一个数据方为至少一个网络平台,所述多个样本与网络平台中的多个对象分别对应。
在一个实施例中,所述对象为以下任一项:消费者、交易、商户、商品。
本说明书另一方面提供一种基于联邦学习构建孤立森林模型的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述模型的第一树中包括第一节点,所述方法由所述至少两个数据方中的第一数据方的设备执行,所述第一数据方的设备中拥有各个样本的第一特征的特征值,并且存储有第一特征与预先确定的第一特征标识的对应关系,所述方法包括:
从所述计算方的设备接收第一节点的标识、多个样本标识和第一特征标识,其中,所述多个样本标识与多个样本分别对应;
基于本地存储第一特征标识与第一特征的对应关系,从所述多个样本各自的第一特征的特征值中随机选择一个特征值作为第一节点的***值;
记录所述第一节点与所述第一特征和所述***值的对应关系;
基于所述***值对所述多个样本进行分组,以构建所述第一节点的两个子节点;
分别确定所述两个子节点是否为叶子节点;
基于所述分组和确定的结果,将与两个子节点分别对应的信息发送给所述计算方的设备,从而构建孤立森林模型以用于进行业务处理。
在一个实施例中,所述两个子节点中包括第二节点,其中,与第二节点对应的信息包括,所述第二节点为叶子节点,所述方法还包括,计算并存储所述第二节点的节点深度。
本说明书另一方面提供一种基于联邦学习通过孤立森林模型预测对象异常性的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述计算方的设备中存储有所述模型中第一树的树结构、所述第一树中各个节点对应的数据方,所述方法由所述计算方的设备执行,包括:
获取第一对象的对象标识;
将所述对象标识发送给各个数据方;
从各个数据方设备接收该数据方在其对应的至少一个非叶子节点分别进行的对所述第一对象的至少一次划分结果;
基于第一树的树结构、以及来自所述至少两个数据方设备的在各个非叶子节点对所述第一对象的划分结果,确定所述第一对象落入的第一叶子节点;
基于所述第一树中的叶子节点各自对应的数据方,将所述第一叶子节点的标识发送给与所述第一叶子节点对应的第一数据方;
从所述第一数据方接收所述第一叶子节点的节点深度;
基于所述节点深度预测第一对象的异常性,以用于进行业务处理。
在一个实施例中,所述方法还包括,基于对所述第一对象的预测结果,获取训练样本,以用于训练监督学习模型。
在一个实施例中,所述方法还包括,基于所述训练好的监督学习模型的参数,优化所述孤立森林模型的样本特征。
本说明书另一方面提供一种基于联邦学习通过孤立森林模型预测对象异常性的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述至少两个数据方中的第一数据方的设备中记录有:其对应的所述第一树中第一节点的第一特征和***值,并且所述第一数据方的设备中存储有各个对象的第一特征的特征值,所述方法由所述第一数据方的设备执行,包括:
从所述计算方的设备接收第一对象的对象标识;
基于本地存储的第一节点的第一特征,从本地获取所述第一对象的第一特征的特征值;
基于本地存储的所述第一对象的第一特征的特征值和所述第一节点的***值,在第一节点对所述第一对象进行划分;
将所述划分的结果发送给所述计算方的设备,从而用于预测所述第一对象的异常性以用于进行业务处理。
在一个实施例中,所述第一数据方的设备中记录有所述第一树中第二节点的节点深度,所述方法还包括,从所述计算方的设备接收所述第一对象所落入的第二节点的标识,将所述第二节点的节点深度发送给所述计算方的设备。
本说明书另一方面提供一种基于联邦学习构建孤立森林模型的装置,所述联邦学习的参与方包括计算方和至少两个数据方,所述装置相对于所述模型中的第一树中的第一节点部署于计算方的设备中,所述至少两个数据方包括第一数据方,所述计算方设备中预先存储了m个特征标识与各个数据方的对应关系,所述m个特征标识分别为m个特征各自的预定标识,所述装置包括:
获取单元,配置为,获取与第一节点对应的多个样本标识,所述多个样本标识与多个样本分别对应,每个样本包括所述m个特征的特征值;
选择单元,配置为,从所述m个特征标识中随机选择一个特征标识;
发送单元,配置为,在所述选择的特征标识为第一特征标识的情况中,基于本地存储第一特征标识与第一数据方的对应关系,将所述第一节点的标识、所述多个样本标识和所述第一特征标识发送给所述第一数据方;
第一记录单元,配置为,记录所述第一节点与所述第一数据方的对应关系;
接收单元,配置为,从所述第一数据方接收与所述第一节点的两个子节点分别对应的信息,从而构建孤立森林模型以用于进行业务处理。
在一个实施例中,所述第一节点为根节点,其中,所述获取单元还配置为,获取N个样本标识,从所述N个样本标识中随机获取n个样本标识,其中N>n。
在一个实施例中,所述两个子节点中包括第二节点,与所述第二节点对应的信息包括,所述第二节点为叶子节点,所述装置还包括,第二记录单元,配置为,记录所述第二节点标识与所述第一数据方的对应关系。
本说明书另一方面提供一种基于联邦学习构建孤立森林模型的装置,所述联邦学习的参与方包括计算方和至少两个数据方,所述模型的第一树中包括第一节点,所述装置部署在所述至少两个数据方中的第一数据方的设备中,所述第一数据方的设备中拥有各个样本的第一特征的特征值,并且存储有第一特征与预先确定的第一特征标识的对应关系,所述装置包括:
接收单元,配置为,从所述计算方的设备接收第一节点的标识、多个样本标识和第一特征标识,其中,所述多个样本标识与多个样本分别对应;
选择单元,配置为,基于本地存储第一特征标识与第一特征的对应关系,从所述多个样本各自的第一特征的特征值中随机选择一个特征值作为第一节点的***值;
记录单元,配置为,记录所述第一节点与所述第一特征和所述***值的对应关系;
分组单元,配置为,基于所述***值对所述多个样本进行分组,以构建所述第一节点的两个子节点;
确定单元,配置为,分别确定所述两个子节点是否为叶子节点;
发送单元,配置为,基于所述分组和确定的结果,将与两个子节点分别对应的信息发送给所述计算方的设备,从而构建孤立森林模型以用于进行业务处理。
在一个实施例中,所述两个子节点中包括第二节点,其中,与第二节点对应的信息包括,所述第二节点为叶子节点,所述装置还包括,计算单元,配置为,计算并存储所述第二节点的节点深度。
本说明书另一方面提供一种基于联邦学习通过孤立森林模型预测对象异常性的装置,所述联邦学习的参与方包括计算方和至少两个数据方,所述计算方的设备中存储有所述模型中第一树的树结构、所述第一树中各个节点对应的数据方,所述装置部署于所述计算方的设备中,包括:
第一获取单元,配置为,获取第一对象的对象标识;
第一发送单元,配置为,将所述对象标识发送给各个数据方;
第一接收单元,配置为,从各个数据方设备接收该数据方在其对应的至少一个非叶子节点分别进行的对所述第一对象的至少一次划分结果;
第一确定单元,配置为,基于第一树的树结构、以及来自所述至少两个数据方设备的在各个非叶子节点对所述第一对象的划分结果,确定所述第一对象落入的第一叶子节点;
第二发送单元,配置为,基于所述第一树中的叶子节点各自对应的数据方,将所述第一叶子节点的标识发送给与所述第一叶子节点对应的第一数据方;
第二接收单元,配置为,从所述第一数据方接收所述第一叶子节点的节点深度;
预测单元,配置为,基于所述节点深度预测第一对象的异常性,以用于进行业务处理。
在一个实施例中,所述装置还包括,第二获取单元,配置为,基于对所述第一对象的预测结果,获取训练样本,以用于训练监督学习模型。
在一个实施例中,所述装置还包括,第二确定单元,配置为,基于所述训练好的监督学习模型的参数,确定所述孤立森林模型的样本包括的特征。
本说明书另一方面提供一种基于联邦学习通过孤立森林模型预测对象异常性的装置,所述联邦学习的参与方包括计算方和至少两个数据方,所述至少两个数据方中的第一数据方的设备中记录有:其对应的所述第一树中第一节点的第一特征和***值,并且所述第一数据方的设备中存储有各个对象的第一特征的特征值,所述装置部署于所述第一数据方的设备中,包括:
第一接收单元,配置为,从所述计算方的设备接收第一对象的对象标识;
获取单元,配置为,基于本地存储的第一节点的第一特征,从本地获取所述第一对象的第一特征的特征值;
划分单元,配置为,基于本地存储的所述第一对象的第一特征的特征值和所述第一节点的***值,在第一节点对所述第一对象进行划分;
第一发送单元,配置为,将所述划分的结果发送给所述计算方的设备,从而用于预测所述第一对象的异常性以用于进行业务处理。
在一个实施例中,所述第一数据方的设备中记录有所述第一树中第二节点的节点深度,所述装置还包括,第二接收单元,配置为,从所述计算方的设备接收所述第一对象所落入的第二节点的标识,以及第二发送单元,配置为,将所述第二节点的节点深度发送给所述计算方的设备。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
通过根据本说明书实施例的基于联邦学习构建孤立森林模型并使用该模型进行异常性预测的方案,可使用多个数据方的数据共同构建孤立森林模型,并使用多个数据方的数据和该模型的数据共同对对象异常性进行预测,同时保护各个数据方的数据***露给其它方,在扩充了用于构建孤立森林模型的数据量、增加模型的预测准确率的同时,保护了各个数据方的数据安全。
附图说明
通过结合附图描述本说明书实施例,可以使得本说明书实施例更加清楚:
图1示出根据本说明书实施例的构建和使用孤立森林模型的场景示意图;
图2示意示出了通过上述构建过程使得B方获取的所构建的模型中的树1的结构图;
图3示意示出根据本说明书实施例的基于联邦学习构建图2中节点1的方法时序图;
图4示意示出根据本说明书实施例的基于联邦学习构建图2中节点2的方法时序图;
图5示意示出根据本说明书实施例的基于联邦学习通过孤立森林模型预测对象异常性的方法时序图;
图6示出了B方结合A方和C方的划分结果确定对象x落入叶子节点的示意图
图7示意示出了根据本说明书实施例的多方无监督学习模型与监督学习模型之间的相互优化过程;
图8示出本说明书实施例的一种基于联邦学习构建孤立森林模型的装置800;
图9示出根据本说明书实施例的一种基于联邦学习构建孤立森林模型的装置900;
图10示出根据本说明书实施例的一种基于联邦学习通过孤立森林模型预测对象异常性的装置1000;
图11示出根据本说明书实施例的一种基于联邦学习通过孤立森林模型预测对象异常性的装置1100。
具体实施方式
下面将结合附图描述本说明书实施例。
图1示出根据本说明书实施例的构建和使用孤立森林模型的场景示意图。如图1所示,该场景中包括至少两个数据方(图中仅示意示出A方和C方)和计算方(B方),下文中将以两个数据方为例进行描述。A方和C方例如为购物平台和支付平台,该孤立森林模型例如可用于预测与该两个平台共同关联的各个交易的异常性。其中,A方例如具有各个交易的商品特征、用户购买行为特征等,C方例如具有各个交易的支付特征、用户支付行为特征等,即A方和C方的数据共同构成了交易的特征数据。从而,A方和C方可基于其各自的数据与B方一起构建孤立森林模型,其中,构建该模型的样本包括一个交易的各个特征的特征值。其中,计算方B方可以为具有相应计算设备的一方,以用于进行模型构建、预测过程的计算,计算方B方也可以为A方和C方中的任一方。
在模型构建过程中,首先B方获取与A方和C方都关联的N个交易编号,以该N个交易编号对应的N个交易的特征数据作为该模型的训练样本集,该特征数据例如可以表示为矩阵X,其中矩阵X包括N行m列,每行与一个交易相对应,每列与交易的一个特征相对应,即,每个交易具有m个特征。假设A方具有该N个交易的特征数据中的一部分XA,C方具有该N个交易的特征数据中的另一部分XC,从而X=(XA XC)。从N个交易编号中随机获取n个交易编号,以将该n个交易编号对应的n个交易的特征数据作为模型中的一棵树的训练样本集。
在训练开始之前,A、B、C三方可共同协商出各个特征的特征标识,同时使得B方不会知道A方、C方的特征,A方和C方彼此也不知道对方拥有的特征。例如,A方、C方分别设定本方具有的各个特征对应的特征标识,并将各个特征标识发送给B方,其中A方和C方可通过协商以确定两方的特征标识之间没有重复。从而B方记录有m个特征标识及其各自对应的数据方。在B方设备中,针对模型的根节点(节点1),从m个特征标识中随机选择一个特征标识(f1)。假设B方设备中记录了f1与A方相对应,从而,B方记录节点1与A方对应,并将例如“节点1,f1,n个交易编号”发送给A方。A方在接收到该信息之后,基于本地的记录,确定f1为特征q1(例如商品价格)的标识,从而从本地的与n个交易编号对应的n个交易各自的特征q1的值中随机选择一个值作为节点1的***值p1,并基于q1和p1对该n个交易进行***,以获取分别落入该节点1的两个子节点2和节点3的交易编号集合Sl和Sr。在基于预定规则判断节点2和节点3都不是叶子节点之后,A方将Sl和Sr发送给B方,从而使得B方分别相对于节点2和节点3重复上述针对节点1的过程,从而构建出如图中所示的孤立树。在例如后续确定节点3与A方对应,并且A方判断节点3的子节点7为叶子节点时,A方通知B方节点7为叶子节点,同时计算并存储节点7的节点深度。B方在接收到节点7为叶子节点之后,构建树中的叶子节点7,并记录节点7与A方对应。通过同样的方法构建多个孤立树,从而构建孤立森林。在构建完成之后,B方记录有各个树的树结构,以及树中的各个节点对应的数据方,A方记录有该模型的部分参数ωA,其中包括:A方对应的各个非叶子节点的***特征、***值、及A方对应的各个叶子节点的节点深度。类似地,C方记录有该模型的部分参数ωC。
图2示意示出了通过上述构建过程使得B方获取的所构建的模型中的一棵树(例如树1)的结构图,该结构图中示意示出了11个节点及各个节点之间的连接关系,其中,各个节点内部标出的数字为该节点的节点标识,各个节点外部标出的字母(如A或C)为数据方的标识,以表示该节点对应的数据方。
在构建完成上述孤立森林模型之后,可使用该模型对待预测对象进行异常性预测。例如,需要对交易1预测其异常性,则B方将交易1的编号发送给A方和C方。A方和C方基于其各自的部分模型参数和交易1的部分特征的特征值,在其对应的节点中对交易1进行划分,并将划分结果都发送给B方。B方结合A方和C方的划分结果,从而确定交易1落入的叶子节点,并从该叶子节点对应的一方(例如A方)接收该叶子节点的节点深度。从而,B方交易1落入基于模型中各个树中的叶子节点的节点深度,可计算交易1的平均节点深度,并基于该平均深度确定交易1的异常性。
可以理解,上文中参考图1的描述仅仅是示意性的,而不是限定性的,例如,所述至少两个数据方可包括更多的数据方,所述样本不限于为交易样本,等等,下文中将详细描述上述模型构建过程和模型预测过程。
图3示意示出根据本说明书实施例的基于联邦学习构建图2中节点1的方法时序图。如上文所述,所述联邦学习的参与方例如包括上述A、B、C三方,该时序图中示出了在构建过程中作为数据方的A方与作为计算方的B方之间互动时序图。可以理解,参与联邦学习的其它数据方与B方之间的互动也是类似的。下面将结合图2和图3描述相对于节点1的构建过程。其中,图3示出和下面步骤中所述的A方和B方都表示A方设备和B方设备。
如上文参考图1中所述,B方预先存储了m个特征标识与各个数据方的对应关系,例如,m个特征中包括特征q1(特征q1例如为“商品价格”),该特征的特征数据由A方拥有,从而A方可预先确定该特征q1对应的特征标识为f1,在本地记录q1与f1的对应关系,并将f1发送给B方,从而B方可记录f1与A方相对应。通过这种方式,B方并不能知道A方具有什么特征。
在开始构建之后,参考图3,首先,在步骤302,B方获取与节点1对应的n个样本标识。节点1为树1的根节点,如上文所述,与该节点1对应的样本标识为从N个样本标识中随机选取的n个样本标识。如上文所述,所述N个样本标识例如为与A方、C方都关联的交易编号,在此不再详述。通过从N个样本标识中进行多次随机选取,从而可确定多组样本标识集合,每个集合中包括n个样本标识,从而可使用每个集合对应的n个样本训练模型中的一颗树,从而可训练整个孤立森林。通过以这样的方式确定多个样本集以分别训练森林中的各棵树,可以以减少的数据训练每棵树,同时保证整个模型的预测准确率。
在步骤304,B方从m个特征标识随机选取一个特征标识,例如,该随机选取的特征标识为f1。
在步骤306,B方基于本地存储的对应关系,确定f1与A方对应。如上文所述,B方预先存储了m个特征标识与各个数据方的对应关系,其中包括f1与A方相对应。如上文所述,该对应关系通过由A方、B方、C方预先共同协商确定,并由B方获取,在此不再详述。
在步骤308,B方将节点1标识(即“节点1”)、n个样本标识和“f1”发送给A方。
在步骤310,B方在本地记录节点1与A方的对应关系。该记录可通过多种方式进行,例如,可如图2中所示,在图中的树1的节点1处标记“A”,从而指示节点1与A方对应,或者,可以以表格的形式将“节点1”与“A”关联地记录,从而,确定节点1与A方相对应。
在步骤312,A方在接收到B方发送的“节点1”、n个样本标识和“f1”之后,基于本地存储的对应关系确定f1对应于特征q1,从而以q1作为节点1的***特征。
在步骤314,A方从n个样本标识对应的n个样本的q1的特征值中随机选择一个特征值作为节点1的***值,例如,该选择的值为p1。
在步骤316,A方在通过上述步骤确定节点1的***特征q1和***值p1之后,记录节点1的***特征q1和***值p1。
在步骤318,A方基于***值p1将n个样本分到节点1的两个子节点中,即图2中的节点2和节点3。例如,可设定,如果样本的q1值<p1,则将该样本分到左边的子节点,即节点2,如果样本的q1值≥p1,则将该样本分到右边的子节点,即节点3。
在步骤320,A方确定节点2和节点3是否为叶子节点。可基于预定规则确定节点2和节点3是否为子节点。例如,如果节点的节点深度达到预定深度(例如最大深度),则该节点为叶子节点,如果节点中只有一个样本、或者节点中的多个样本具有相同的特征数据从而无法区分,则该节点为叶子节点。
在步骤322,A方在确定节点2和节点3都不是叶子节点之后,将节点2和节点3中各自包括的样本标识发送给B方。从而B方具有用于构建节点2的u个节点标识和节点3的v个节点标识,从而可以分别针对节点2和节点3执行上述针对节点1执行的过程,以用于继续构建节点2和节点3,进而构建出整棵树。
图4示意示出根据本说明书实施例的基于联邦学习构建图2中节点2的方法时序图。该时序图示出了在构建过程中作为数据方的C方与B方之间的互动时序图。下面将结合图2和图4描述相对于节点2的构建过程。其中,与上文类似地,图4中和下面描述中的C方表示C方设备。
其中,所述m个特征中例如还包括特征q2(特征q2例如为“支付金额”),该特征的特征数据由C方拥有,从而C方可预先确定q2对应的特征标识为f2,在本地记录q2与f2的对应关系,并将f2发送给B方,从而B方记录有f2与C方的对应关系。
在开始构建之后,参考图4,在步骤402,B方获取与节点2对应的u个样本标识,即B方从A方接收分到节点2的u个样本标识。在步骤404,B方从m个特征标识随机选择一个特征标识,例如f2。在步骤406,B方基于本地存储的对应关系,确定f2与C方相对应。在步骤408,B方将“节点2”、u个样本标识和“f2”发送给C方。在步骤410,B方记录节点2与C方相对应。在步骤412,C方在接收到从B方发送的“节点2”、u个样本标识和“f2”之后,基于本地存储的对应关系,确定以f2对应的特征q2作为节点2的***特征。在步骤414,C方从u个样本的q2的特征值中随机选择一个特征值,例如p2,作为节点2的***值。在步骤416,C方记录节点的***特征q2和***值p2。在步骤418,C方基于p2将u个样本分到节点4和节点5中。在步骤420,C方确定节点4和节点5是否为叶子节点。其中步骤404~步骤420可参考上文对步骤304~步骤320的描述,在此不再赘述。
在步骤422,C方基于步骤420的确定,例如确定节点4不是叶子节点,节点5是叶子节点,从而C方将分到节点4的g个样本标识发送给B方,同时通知B方“节点5为叶子节点”。
在步骤424,B方在接收到“节点5为叶子节点”之后,B方可将节点5标记为叶子节点,从而不再对节点5进行样本***,同时B方在本地记录节点5与C方相对应。
在步骤426,C方在确定节点5是叶子节点之后,计算并存储节点5的节点深度。在一个实施例中,可通过如下的公式(1)计算节点5的节点深度:
H=e+c(n) (1)
其中,c(n)如公式(2)所示:
c(n)=2H(n-1)-2(n-1)/n, (2)
其中,e为节点5与根节点(节点1)之间的边数(即,2),n为该树的训练样本数,H(n)为调和级数,其可以由ln(n)+0,5772156649(欧拉常数)来估计。在孤立森林模型中,叶子节点的节点深度越小,分到该叶子节点中的样本是异常样本的可能性越大。
在如上所述构建了节点2之后,可通过同样地方式构建树1中的几个非叶子节点,节点3、节点4、和节点6,从而构建出如图2所示的树1的结构。例如,通过上述随机确定的方式,可确定节点1、节点3和节点4与A方相对应,节点2和节点6与C方相对应,从而可相应地确定,叶子节点7、8、9与A方对应,叶子节点5、10、11与C方相对应,如图2中所示。而在A方和C方分别记录了其对应的节点、该节点的***特征和***值。也就是说,A方、B方和C方分别拥有该孤立森林模型的部分数据。从而,在通过该模型进行对象预测时,需要三方协同进行。
图5示意示出根据本说明书实施例的基于联邦学习通过孤立森林模型预测对象异常性的方法时序图。
如图5所述,首先在步骤502,B方获取待预测对象的对象标识x,与上述样本标识类似地,该对象标识例如为交易编号,该待预测对象为待预测的一个交易,同样地,该交易x的交易特征数据由A方和B方的数据共同构成。B方可主动发起对交易x异常性的预测,或者B方作为服务器接收来自客户端的预测交易x异常性的请求,从而开始执行该方法。
在步骤504,B方将对象标识x分别发送给A方和C方,图中虽然示出B方在相同的时间对A方和C方进行发送,本实施例对此并不限定。
在步骤506,A方和C方分别在其对应的至少一个节点处对对象x进行划分。由上文所述,例如A方与节点1、节点3和节点4对应,其具有节点1的特征q1和***值p1,节点3的特征q3和***值p3,和节点4的特征q4和***值p4,并且A方具有对象的特征q1的值v1、特征q3的值v2、和特征q4的值v4。从而,A方可在节点1可基于v1和p1对对象x进行划分,例如v1<p1,从而,将对象x分到节点1的左边的子节点中,类似地,A方基于v3和q3将对象x划分到节点3左边的子节点中,基于v4和q4将对象x划分到节点4右边的子节点中。类似地,C方与节点2和节点6对应,其在节点2将对象x划分到左边的子节点中,在节点6将对象x划分到右边的子节点中。
在步骤508,A方和C方将其在各个节点对对象x的划分结果发送给B方。可以理解,图中虽然示出A方和C方在相同的时间执行该步骤,本实施例对此并不限定。
在步骤510,B方基于接收的划分结果确定对象x落入的叶子节点,即节点9。图6示出了B方结合A方和C方的划分结果确定对象x落入叶子节点的示意图。如图6中所示,B方合并A方和C方在各个节点对对象x的划分,从而可从节点1开始找到对象x的划分路径,即,节点1→节点2→节点4→节点9,从而可确定对象x最终落入叶子节点9中。
在步骤512,B方基于本地的对应关系,确定节点9与A方相对应,从而将“节点9”发送给A方。
在步骤514,A方将节点9的节点深度发送给B方。
在步骤516,B方基于节点9的节点深度,预测对象x的异常性。在一个实施例中,可通过节点9的平均节点深度来预测对象x的异常性。B方在根据同样的方法获取对象x在各棵树中的节点深度之后,可计算对象x的平均节点深度E(h(x)),该平均节点深度越大,说明对象x分到的叶子节点距离根节点越远,从而对象x的异常性越小,反之,该平均节点深度越小,则对象x的异常性越大。
在一个实施例中,可通过公式(3)所示的异常分数来预测对象x的异常性:
其中,c(n)如上述公式(2)所示。可验证,s的值在0到1之间,s越小,表示该对象的异常性越小,s越大,表示该对象的异常性越大。
在获取对象的异常性之后,可进行多种业务处理。例如,该对象为交易,在确定该交易为异常交易之后,可进行对该交易的人工核查,以防止发生欺诈事件。或者,可将该交易的数据及标签值作为训练样本,用于训练多方监督学习模型,如防欺诈的多方监督学习模型等。
图7示意示出了根据本说明书实施例的多方无监督学习模型与多方监督学习模型之间的相互优化过程。如图7中所示,结合人工(例如专家)标注的样本和通过根据本说明书的孤立森林标注的样本,可半自动地获取训练样本集,从而训练多方监督学习模型;结合人工确定的特征、和基于多方监督学习模型参数确定的特征,可半自动地确定用于训练孤立森林模型的样本特征,从而优化孤立森林模型的训练。具体是,确定用于训练孤立森林模型的样本的多个特征之后,可将该多个特征分别对应的多个特征标识发送给B方,从而使得B方在再次进行对该多方孤立森林模型的训练时,基于所述多个特征标识执行图3或图4所示方法。同时,可通过训练的多方监督学习模型对对象异常性进行自动预测,例如基于待预测对象的异常性进行风险识别等。
图8示出本说明书实施例的一种基于联邦学习构建孤立森林模型的装置800,所述联邦学习的参与方包括计算方和至少两个数据方,所述装置相对于所述模型中的第一树中的第一节点部署于计算方的设备中,所述至少两个数据方包括第一数据方,所述计算方设备中预先存储了m个特征标识与各个数据方的对应关系,所述m个特征标识分别为m个特征各自的预定标识,所述装置包括:
获取单元81,配置为,获取与第一节点对应的多个样本标识,所述多个样本标识与多个样本分别对应,每个样本包括所述m个特征的特征值;
选择单元82,配置为,从所述m个特征标识中随机选择一个特征标识;
发送单元83,配置为,在所述选择的特征标识为第一特征标识的情况中,基于本地存储第一特征标识与第一数据方的对应关系,将所述第一节点的标识、所述多个样本标识和所述第一特征标识发送给所述第一数据方;
第一记录单元84,配置为,记录所述第一节点与所述第一数据方的对应关系;
接收单元85,配置为,从所述第一数据方接收与所述第一节点的两个子节点分别对应的信息,从而构建孤立森林模型以用于进行业务处理。
在一个实施例中,所述第一节点为根节点,其中,所述获取单元81还配置为,获取N个样本标识,从所述N个样本标识中随机获取n个样本标识,其中N>n。
在一个实施例中,所述两个子节点中包括第二节点,与所述第二节点对应的信息包括,所述第二节点为叶子节点,所述装置还包括,第二记录单元86,配置为,记录所述第二节点标识与所述第一数据方的对应关系。
图9示出根据本说明书实施例的一种基于联邦学习构建孤立森林模型的装置900,所述联邦学习的参与方包括计算方和至少两个数据方,所述模型的第一树中包括第一节点,所述装置部署在所述至少两个数据方中的第一数据方的设备中,所述第一数据方的设备中拥有各个样本的第一特征的特征值,并且存储有第一特征与预先确定的第一特征标识的对应关系,所述装置包括:
接收单元91,配置为,从所述计算方的设备接收第一节点的标识、多个样本标识和第一特征标识,其中,所述多个样本标识与多个样本分别对应;
选择单元92,配置为,基于本地存储第一特征标识与第一特征的对应关系,从所述多个样本各自的第一特征的特征值中随机选择一个特征值作为第一节点的***值;
记录单元93,配置为,记录所述第一节点与所述第一特征和所述***值的对应关系;
分组单元94,配置为,基于所述***值对所述多个样本进行分组,以构建所述第一节点的两个子节点;
确定单元95,配置为,分别确定所述两个子节点是否为叶子节点;
发送单元96,配置为,基于所述分组和确定的结果,将与两个子节点分别对应的信息发送给所述计算方的设备,从而构建孤立森林模型以用于进行业务处理。
在一个实施例中,所述两个子节点中包括第二节点,其中,与第二节点对应的信息包括,所述第二节点为叶子节点,所述装置还包括,计算单元97,配置为,计算并存储所述第二节点的节点深度。
图10示出根据本说明书实施例的一种基于联邦学习通过孤立森林模型预测对象异常性的装置1000,所述联邦学习的参与方包括计算方和至少两个数据方,所述计算方的设备中存储有所述模型中第一树的树结构、所述第一树中各个节点对应的数据方,所述装置部署于所述计算方的设备中,包括:
第一获取单元101,配置为,获取第一对象的对象标识;
第一发送单元102,配置为,将所述对象标识发送给各个数据方;
第一接收单元103,配置为,从各个数据方设备接收该数据方在其对应的至少一个非叶子节点分别进行的对所述第一对象的至少一次划分结果;
第一确定单元104,配置为,基于第一树的树结构、以及来自所述至少两个数据方设备的在各个非叶子节点对所述第一对象的划分结果,确定所述第一对象落入的第一叶子节点;
第二发送单元105,配置为,基于所述第一树中的叶子节点各自对应的数据方,将所述第一叶子节点的标识发送给与所述第一叶子节点对应的第一数据方;
第二接收单元106,配置为,从所述第一数据方接收所述第一叶子节点的节点深度;
预测单元107,配置为,基于所述节点深度预测第一对象的异常性,以用于进行业务处理。
在一个实施例中,所述装置还包括,第二获取单元108,配置为,基于对所述第一对象的预测结果,获取训练样本,以用于训练监督学习模型。
在一个实施例中,所述装置还包括,第二确定单元109,配置为,基于所述训练好的监督学习模型的参数,确定所述孤立森林模型的样本包括的特征。
图11示出根据本说明书实施例的一种基于联邦学习通过孤立森林模型预测对象异常性的装置1100,所述联邦学习的参与方包括计算方和至少两个数据方,所述至少两个数据方中的第一数据方的设备中记录有:其对应的所述第一树中第一节点的第一特征和***值,并且所述第一数据方的设备中存储有各个对象的第一特征的特征值,所述装置部署于所述第一数据方的设备中,包括:
第一接收单元111,配置为,从所述计算方的设备接收第一对象的对象标识;
获取单元112,配置为,基于本地存储的第一节点的第一特征,从本地获取所述第一对象的第一特征的特征值;
划分单元113,配置为,基于本地存储的所述第一对象的第一特征的特征值和所述第一节点的***值,在第一节点对所述第一对象进行划分;
第一发送单元114,配置为,将所述划分的结果发送给所述计算方的设备,从而用于预测所述第一对象的异常性以用于进行业务处理。
在一个实施例中,所述第一数据方的设备中记录有所述第一树中第二节点的节点深度,所述装置还包括,第二接收单元115,配置为,从所述计算方的设备接收所述第一对象所落入的第二节点的标识,以及第二发送单元116,配置为,将所述第二节点的节点深度发送给所述计算方的设备。
本说明书另一方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项方法。
本说明书另一方面提供一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一项方法。
通过根据本说明书实施例的基于联邦学习构建孤立森林模型并使用该模型进行异常性预测的方案,可使用多个数据方的数据共同构建孤立森林模型,并使用多个数据方的数据和该模型的数据共同对对象异常性进行预测,同时保护各个数据方的数据***露给其它方,在扩充了用于构建孤立森林模型的数据量、增加模型的预测准确率的同时,保护了各个数据方的数据安全。
需要理解,本文中的“第一”,“第二”等描述,仅仅为了描述的简单而对相似概念进行区分,并不具有其他限定作用。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (28)
1.一种基于联邦学习构建孤立森林模型的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述方法由计算方的设备相对于所述模型中的第一树中的第一节点执行,所述至少两个数据方包括第一数据方,所述计算方设备中预先存储了m个特征标识与各个数据方的对应关系,所述m个特征标识分别为m个特征各自的预定标识,所述方法包括:
获取与第一节点对应的多个样本标识,所述多个样本标识与多个样本分别对应,每个样本包括所述m个特征的特征值;
从所述m个特征标识中随机选择一个特征标识;
在所述选择的特征标识为第一特征标识的情况中,基于本地存储第一特征标识与第一数据方的对应关系,将所述第一节点的标识、所述多个样本标识和所述第一特征标识发送给所述第一数据方;
记录所述第一节点与所述第一数据方的对应关系;
从所述第一数据方接收与所述第一节点的两个子节点分别对应的信息,从而在保护各数据方私有数据的同时构建孤立森林模型以用于进行业务处理。
2.根据权利要求1所述的方法,所述第一节点为根节点,其中,获取与第一节点对应的多个样本标识包括,获取N个样本标识,从所述N个样本标识中随机获取n个样本标识,其中N>n。
3.根据权利要求1所述的方法,其中,所述两个子节点中包括第二节点,与所述第二节点对应的信息包括,所述第二节点为叶子节点,所述方法还包括,记录所述第二节点标识与所述第一数据方的对应关系。
4.根据权利要求3所述的方法,其中,所述两个子节点中包括第三节点,与所述第三节点对应的信息包括,分到所述第三节点的u个样本标识,其中,所述u个样本标识为所述多个样本标识中的一部分。
5.根据权利要求1所述的方法,其中,所述至少一个数据方为至少一个网络平台,所述多个样本与网络平台中的多个对象分别对应。
6.根据权利要求5所述的方法,其中,所述对象为以下任一项:消费者、交易、商户、商品。
7.一种基于联邦学习构建孤立森林模型的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述模型的第一树中包括第一节点,所述方法由所述至少两个数据方中的第一数据方的设备执行,所述第一数据方的设备中拥有各个样本的第一特征的特征值,并且存储有第一特征与预先确定的第一特征标识的对应关系,所述方法包括:
从所述计算方的设备接收第一节点的标识、多个样本标识和第一特征标识,其中,所述多个样本标识与多个样本分别对应;
基于本地存储第一特征标识与第一特征的对应关系,从所述多个样本各自的第一特征的特征值中随机选择一个特征值作为第一节点的***值;
记录所述第一节点与所述第一特征和所述***值的对应关系;
基于所述***值对所述多个样本进行分组,以构建所述第一节点的两个子节点;
分别确定所述两个子节点是否为叶子节点;
基于所述分组和确定的结果,将与两个子节点分别对应的信息发送给所述计算方的设备,从而在保护各数据方私有数据的同时构建孤立森林模型以用于进行业务处理。
8.根据权利要求7所述的方法,其中,所述两个子节点中包括第二节点,其中,与第二节点对应的信息包括,所述第二节点为叶子节点,所述方法还包括,计算并存储所述第二节点的节点深度。
9.一种基于联邦学习通过孤立森林模型预测对象异常性的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述计算方的设备中存储有所述模型中第一树的树结构、所述第一树中各个节点对应的数据方,所述方法由所述计算方的设备执行,包括:
获取第一对象的对象标识;
将所述对象标识发送给各个数据方;
从各个数据方设备接收该数据方在其对应的至少一个非叶子节点分别进行的对所述第一对象的至少一次划分结果;
基于第一树的树结构、以及来自所述至少两个数据方设备的在各个非叶子节点对所述第一对象的划分结果,确定所述第一对象落入的第一叶子节点;
基于所述第一树中的叶子节点各自对应的数据方,将所述第一叶子节点的标识发送给与所述第一叶子节点对应的第一数据方;
从所述第一数据方接收所述第一叶子节点的节点深度;
基于所述节点深度预测第一对象的异常性,以用于进行业务处理。
10.根据权利要求9所述的方法,还包括,基于对所述第一对象的预测结果,获取训练样本,以用于训练监督学习模型。
11.根据权利要求10所述的方法,还包括,基于所述训练好的监督学习模型的参数,优化所述孤立森林模型的样本特征。
12.一种基于联邦学习通过孤立森林模型预测对象异常性的方法,所述联邦学习的参与方包括计算方和至少两个数据方,所述至少两个数据方中的第一数据方的设备中记录有:其对应的所述第一树中第一节点的第一特征和***值,并且所述第一数据方的设备中存储有各个对象的第一特征的特征值,所述方法由所述第一数据方的设备执行,包括:
从所述计算方的设备接收第一对象的对象标识;
基于本地存储的第一节点的第一特征,从本地获取所述第一对象的第一特征的特征值;
基于本地存储的所述第一对象的第一特征的特征值和所述第一节点的***值,在第一节点对所述第一对象进行划分;
将所述划分的结果发送给所述计算方的设备,从而用于预测所述第一对象的异常性以用于进行业务处理。
13.根据权利要求12所述的方法,其中,所述第一数据方的设备中记录有所述第一树中第二节点的节点深度,所述方法还包括,从所述计算方的设备接收所述第一对象所落入的第二节点的标识,将所述第二节点的节点深度发送给所述计算方的设备。
14.一种基于联邦学习构建孤立森林模型的装置,所述联邦学习的参与方包括计算方和至少两个数据方,所述装置相对于所述模型中的第一树中的第一节点部署于计算方的设备中,所述至少两个数据方包括第一数据方,所述计算方设备中预先存储了m个特征标识与各个数据方的对应关系,所述m个特征标识分别为m个特征各自的预定标识,所述装置包括:
获取单元,配置为,获取与第一节点对应的多个样本标识,所述多个样本标识与多个样本分别对应,每个样本包括所述m个特征的特征值;
选择单元,配置为,从所述m个特征标识中随机选择一个特征标识;
发送单元,配置为,在所述选择的特征标识为第一特征标识的情况中,基于本地存储第一特征标识与第一数据方的对应关系,将所述第一节点的标识、所述多个样本标识和所述第一特征标识发送给所述第一数据方;
第一记录单元,配置为,记录所述第一节点与所述第一数据方的对应关系;
接收单元,配置为,从所述第一数据方接收与所述第一节点的两个子节点分别对应的信息,从而构建孤立森林模型以用于进行业务处理。
15.根据权利要求14所述的装置,所述第一节点为根节点,其中,所述获取单元还配置为,获取N个样本标识,从所述N个样本标识中随机获取n个样本标识,其中N>n。
16.根据权利要求14所述的装置,其中,所述两个子节点中包括第二节点,与所述第二节点对应的信息包括,所述第二节点为叶子节点,所述装置还包括,第二记录单元,配置为,记录所述第二节点标识与所述第一数据方的对应关系。
17.根据权利要求16所述的装置,其中,所述两个子节点中包括第三节点,与所述第三节点对应的信息包括,分到所述第三节点的u个样本标识,其中,所述u个样本标识为所述多个样本标识中的一部分。
18.根据权利要求14所述的装置,其中,所述至少一个数据方为至少一个网络平台,所述多个样本与网络平台中的多个对象分别对应。
19.根据权利要求18所述的装置,其中,所述对象为以下任一项:消费者、交易、商户、商品。
20.一种基于联邦学习构建孤立森林模型的装置,所述联邦学习的参与方包括计算方和至少两个数据方,所述模型的第一树中包括第一节点,所述装置部署在所述至少两个数据方中的第一数据方的设备中,所述第一数据方的设备中拥有各个样本的第一特征的特征值,并且存储有第一特征与预先确定的第一特征标识的对应关系,所述装置包括:
接收单元,配置为,从所述计算方的设备接收第一节点的标识、多个样本标识和第一特征标识,其中,所述多个样本标识与多个样本分别对应;
选择单元,配置为,基于本地存储第一特征标识与第一特征的对应关系,从所述多个样本各自的第一特征的特征值中随机选择一个特征值作为第一节点的***值;
记录单元,配置为,记录所述第一节点与所述第一特征和所述***值的对应关系;
分组单元,配置为,基于所述***值对所述多个样本进行分组,以构建所述第一节点的两个子节点;
确定单元,配置为,分别确定所述两个子节点是否为叶子节点;
发送单元,配置为,基于所述分组和确定的结果,将与两个子节点分别对应的信息发送给所述计算方的设备,从而构建孤立森林模型以用于进行业务处理。
21.根据权利要求20所述的装置,其中,所述两个子节点中包括第二节点,其中,与第二节点对应的信息包括,所述第二节点为叶子节点,所述装置还包括,计算单元,配置为,计算并存储所述第二节点的节点深度。
22.一种基于联邦学习通过孤立森林模型预测对象异常性的装置,所述联邦学习的参与方包括计算方和至少两个数据方,所述计算方的设备中存储有所述模型中第一树的树结构、所述第一树中各个节点对应的数据方,所述装置部署于所述计算方的设备中,包括:
第一获取单元,配置为,获取第一对象的对象标识;
第一发送单元,配置为,将所述对象标识发送给各个数据方;
第一接收单元,配置为,从各个数据方设备接收该数据方在其对应的至少一个非叶子节点分别进行的对所述第一对象的至少一次划分结果;
第一确定单元,配置为,基于第一树的树结构、以及来自所述至少两个数据方设备的在各个非叶子节点对所述第一对象的划分结果,确定所述第一对象落入的第一叶子节点;
第二发送单元,配置为,基于所述第一树中的叶子节点各自对应的数据方,将所述第一叶子节点的标识发送给与所述第一叶子节点对应的第一数据方;
第二接收单元,配置为,从所述第一数据方接收所述第一叶子节点的节点深度;
预测单元,配置为,基于所述节点深度预测第一对象的异常性,以用于进行业务处理。
23.根据权利要求22所述的装置,还包括,第二获取单元,配置为,基于对所述第一对象的预测结果,获取训练样本,以用于训练监督学习模型。
24.根据权利要求23所述的装置,还包括,第二确定单元,配置为,基于所述训练好的监督学习模型的参数,确定所述孤立森林模型的样本包括的特征。
25.一种基于联邦学习通过孤立森林模型预测对象异常性的装置,所述联邦学习的参与方包括计算方和至少两个数据方,所述至少两个数据方中的第一数据方的设备中记录有:其对应的所述第一树中第一节点的第一特征和***值,并且所述第一数据方的设备中存储有各个对象的第一特征的特征值,所述装置部署于所述第一数据方的设备中,包括:
第一接收单元,配置为,从所述计算方的设备接收第一对象的对象标识;
获取单元,配置为,基于本地存储的第一节点的第一特征,从本地获取所述第一对象的第一特征的特征值;
划分单元,配置为,基于本地存储的所述第一对象的第一特征的特征值和所述第一节点的***值,在第一节点对所述第一对象进行划分;
第一发送单元,配置为,将所述划分的结果发送给所述计算方的设备,从而用于预测所述第一对象的异常性以用于进行业务处理。
26.根据权利要求25所述的装置,其中,所述第一数据方的设备中记录有所述第一树中第二节点的节点深度,所述装置还包括,第二接收单元,配置为,从所述计算方的设备接收所述第一对象所落入的第二节点的标识,以及第二发送单元,配置为,将所述第二节点的节点深度发送给所述计算方的设备。
27.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-13中任一项的所述的方法。
28.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-13中任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911288850.5A CN110991552B (zh) | 2019-12-12 | 2019-12-12 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
CN202110462961.4A CN113065610B (zh) | 2019-12-12 | 2019-12-12 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
TW109115727A TWI780433B (zh) | 2019-12-12 | 2020-05-12 | 基於聯邦學習的孤立森林模型構建和預測方法和裝置 |
PCT/CN2020/118009 WO2021114821A1 (zh) | 2019-12-12 | 2020-09-27 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911288850.5A CN110991552B (zh) | 2019-12-12 | 2019-12-12 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110462961.4A Division CN113065610B (zh) | 2019-12-12 | 2019-12-12 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110991552A true CN110991552A (zh) | 2020-04-10 |
CN110991552B CN110991552B (zh) | 2021-03-12 |
Family
ID=70093746
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110462961.4A Active CN113065610B (zh) | 2019-12-12 | 2019-12-12 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
CN201911288850.5A Active CN110991552B (zh) | 2019-12-12 | 2019-12-12 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110462961.4A Active CN113065610B (zh) | 2019-12-12 | 2019-12-12 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
Country Status (3)
Country | Link |
---|---|
CN (2) | CN113065610B (zh) |
TW (1) | TWI780433B (zh) |
WO (1) | WO2021114821A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112231768A (zh) * | 2020-10-27 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN112529102A (zh) * | 2020-12-24 | 2021-03-19 | 深圳前海微众银行股份有限公司 | 特征拓展方法、设备、介质及计算机程序产品 |
CN112862057A (zh) * | 2021-04-07 | 2021-05-28 | 京东数字科技控股股份有限公司 | 一种建模方法、装置、电子设备和可读介质 |
WO2021114821A1 (zh) * | 2019-12-12 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
WO2021114616A1 (zh) * | 2020-05-14 | 2021-06-17 | 平安科技(深圳)有限公司 | 联邦学习模型训练方法及相关设备 |
CN113408668A (zh) * | 2021-07-30 | 2021-09-17 | 深圳前海微众银行股份有限公司 | 基于联邦学习***的决策树构建方法、装置及电子设备 |
CN113420072A (zh) * | 2021-06-24 | 2021-09-21 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113506163A (zh) * | 2021-09-07 | 2021-10-15 | 百融云创科技股份有限公司 | 一种基于纵向联邦的孤立森林训练和预测方法及*** |
CN113807544A (zh) * | 2020-12-31 | 2021-12-17 | 京东科技控股股份有限公司 | 一种联邦学习模型的训练方法、装置及电子设备 |
CN114996749A (zh) * | 2022-08-05 | 2022-09-02 | 蓝象智联(杭州)科技有限公司 | 一种用于联邦学习的特征过滤方法 |
CN115766282A (zh) * | 2022-12-12 | 2023-03-07 | 张家港金典软件有限公司 | 一种用于企业信息安全监督的数据处理方法及*** |
CN117077067A (zh) * | 2023-10-18 | 2023-11-17 | 北京亚康万玮信息技术股份有限公司 | 一种基于智能匹配的信息***自动部署规划方法 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113537361B (zh) * | 2021-07-20 | 2024-04-02 | 同盾科技有限公司 | 联邦学习***中的跨样本特征选择方法及联邦学习*** |
CN113554182B (zh) * | 2021-07-27 | 2023-09-19 | 西安电子科技大学 | 一种横向联邦学习***中拜占庭节点的检测方法及*** |
CN113723477B (zh) * | 2021-08-16 | 2024-04-30 | 同盾科技有限公司 | 一种基于孤立森林的跨特征联邦异常数据检测方法 |
CN114611616B (zh) * | 2022-03-16 | 2023-02-07 | 吕少岚 | 一种基于集成孤立森林的无人机智能故障检测方法及*** |
CN114785810B (zh) * | 2022-03-31 | 2023-05-16 | 海南师范大学 | 一种适用于联邦学习的树状广播数据同步方法 |
TWI812293B (zh) * | 2022-06-20 | 2023-08-11 | 英業達股份有限公司 | 使用資料摘要的聯邦學習系統及其方法 |
TWI807961B (zh) * | 2022-08-11 | 2023-07-01 | 財團法人亞洲大學 | 基於分布式集群的多層聯邦學習系統與方法 |
CN115907029B (zh) * | 2022-11-08 | 2023-07-21 | 北京交通大学 | 面向联邦学习投毒攻击的防御方法及*** |
TWI829558B (zh) * | 2023-03-17 | 2024-01-11 | 英業達股份有限公司 | 保護資料摘要的聯邦學習系統及其方法 |
CN117874653B (zh) * | 2024-03-11 | 2024-05-31 | 武汉佳华创新电气有限公司 | 一种基于多源数据的电力***安全监测方法及*** |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180130207A1 (en) * | 2016-11-04 | 2018-05-10 | Eric Kenneth Anderson | System and method for non-invasive tissue characterization and classification |
CN109074519A (zh) * | 2016-12-06 | 2018-12-21 | 松下电器(美国)知识产权公司 | 信息处理装置、信息处理方法以及程序 |
CN109299728A (zh) * | 2018-08-10 | 2019-02-01 | 深圳前海微众银行股份有限公司 | 联邦学习方法、***及可读存储介质 |
US20190050515A1 (en) * | 2018-06-27 | 2019-02-14 | Intel Corporation | Analog functional safety with anomaly detection |
US20190132741A1 (en) * | 2017-10-27 | 2019-05-02 | LGS Innovations LLC | Rogue base station router detection with machine learning algorithms |
CN109902721A (zh) * | 2019-01-28 | 2019-06-18 | 平安科技(深圳)有限公司 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
WO2019143384A1 (en) * | 2018-01-18 | 2019-07-25 | Google Llc | Systems and methods for improved adversarial training of machine-learned models |
CN110084377A (zh) * | 2019-04-30 | 2019-08-02 | 京东城市(南京)科技有限公司 | 用于构建决策树的方法和装置 |
CN110191110A (zh) * | 2019-05-20 | 2019-08-30 | 山西大学 | 基于网络表示学习的社交网络异常账户检测方法及*** |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182578A (zh) * | 2017-10-24 | 2021-01-05 | 创新先进技术有限公司 | 一种模型训练方法、检测url的方法及装置 |
JP6879239B2 (ja) * | 2018-03-14 | 2021-06-02 | オムロン株式会社 | 異常検知システム、サポート装置およびモデル生成方法 |
CN109002861B (zh) * | 2018-08-10 | 2021-11-09 | 深圳前海微众银行股份有限公司 | 联邦建模方法、设备及存储介质 |
CN109684311A (zh) * | 2018-12-06 | 2019-04-26 | 中科恒运股份有限公司 | 异常数据检测方法及装置 |
CN109859029A (zh) * | 2019-01-04 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 异常申请检测方法、装置、计算机设备以及存储介质 |
US10430727B1 (en) * | 2019-04-03 | 2019-10-01 | NFL Enterprises LLC | Systems and methods for privacy-preserving generation of models for estimating consumer behavior |
CN110414555B (zh) * | 2019-06-20 | 2023-10-03 | 创新先进技术有限公司 | 检测异常样本的方法及装置 |
CN110309587B (zh) * | 2019-06-28 | 2024-01-16 | 京东城市(北京)数字科技有限公司 | 决策模型构建方法、决策方法与决策模型 |
CN110363305B (zh) * | 2019-07-17 | 2023-09-26 | 深圳前海微众银行股份有限公司 | 联邦学习方法、***、终端设备及存储介质 |
CN110517154A (zh) * | 2019-07-23 | 2019-11-29 | 平安科技(深圳)有限公司 | 数据模型训练方法、***及计算机设备 |
CN113065610B (zh) * | 2019-12-12 | 2022-05-17 | 支付宝(杭州)信息技术有限公司 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
-
2019
- 2019-12-12 CN CN202110462961.4A patent/CN113065610B/zh active Active
- 2019-12-12 CN CN201911288850.5A patent/CN110991552B/zh active Active
-
2020
- 2020-05-12 TW TW109115727A patent/TWI780433B/zh active
- 2020-09-27 WO PCT/CN2020/118009 patent/WO2021114821A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180130207A1 (en) * | 2016-11-04 | 2018-05-10 | Eric Kenneth Anderson | System and method for non-invasive tissue characterization and classification |
CN109074519A (zh) * | 2016-12-06 | 2018-12-21 | 松下电器(美国)知识产权公司 | 信息处理装置、信息处理方法以及程序 |
US20190132741A1 (en) * | 2017-10-27 | 2019-05-02 | LGS Innovations LLC | Rogue base station router detection with machine learning algorithms |
WO2019143384A1 (en) * | 2018-01-18 | 2019-07-25 | Google Llc | Systems and methods for improved adversarial training of machine-learned models |
US20190050515A1 (en) * | 2018-06-27 | 2019-02-14 | Intel Corporation | Analog functional safety with anomaly detection |
CN109299728A (zh) * | 2018-08-10 | 2019-02-01 | 深圳前海微众银行股份有限公司 | 联邦学习方法、***及可读存储介质 |
CN109902721A (zh) * | 2019-01-28 | 2019-06-18 | 平安科技(深圳)有限公司 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
CN110084377A (zh) * | 2019-04-30 | 2019-08-02 | 京东城市(南京)科技有限公司 | 用于构建决策树的方法和装置 |
CN110191110A (zh) * | 2019-05-20 | 2019-08-30 | 山西大学 | 基于网络表示学习的社交网络异常账户检测方法及*** |
Non-Patent Citations (5)
Title |
---|
E.A. PÄRN等: ""Origins and probabilities of MEP and structural design clashes within a federated BIM model"", 《AUTOMATION IN CONSTRUCTION》 * |
YOU JUN KIM等: ""Blockchain-based Node-aware Dynamic Weighting Methods for Improving Federated Learning Performance"", 《2019 20TH ASIA-PACIFIC NETWORK OPERATIONS AND MANAGEMENT SYMPOSIUM (APNOMS)》 * |
YOUNG MYUNG KIM等: ""Analysis of Relationship between Personal Factors and Visiting Places using Random Forest Technique"", 《2019 FEDERATED CONFERENCE ON COMPUTER SCIENCE AND INFORMATION SYSTEMS (FEDCSIS)》 * |
李新鹏等: ""基于孤立森林算法的电力调度流数据异常检测方法"", 《电网技术》 * |
杨强: ""AI与数据隐私保护:联邦学习的破解之道"", 《信息安全研究》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114821A1 (zh) * | 2019-12-12 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 基于联邦学习的孤立森林模型构建和预测方法和装置 |
WO2021114616A1 (zh) * | 2020-05-14 | 2021-06-17 | 平安科技(深圳)有限公司 | 联邦学习模型训练方法及相关设备 |
CN112231768A (zh) * | 2020-10-27 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN112231768B (zh) * | 2020-10-27 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN112529102A (zh) * | 2020-12-24 | 2021-03-19 | 深圳前海微众银行股份有限公司 | 特征拓展方法、设备、介质及计算机程序产品 |
CN112529102B (zh) * | 2020-12-24 | 2024-03-12 | 深圳前海微众银行股份有限公司 | 特征拓展方法、设备、介质及计算机程序产品 |
CN113807544A (zh) * | 2020-12-31 | 2021-12-17 | 京东科技控股股份有限公司 | 一种联邦学习模型的训练方法、装置及电子设备 |
CN113807544B (zh) * | 2020-12-31 | 2023-09-26 | 京东科技控股股份有限公司 | 一种联邦学习模型的训练方法、装置及电子设备 |
CN112862057B (zh) * | 2021-04-07 | 2023-11-03 | 京东科技控股股份有限公司 | 一种建模方法、装置、电子设备和可读介质 |
CN112862057A (zh) * | 2021-04-07 | 2021-05-28 | 京东数字科技控股股份有限公司 | 一种建模方法、装置、电子设备和可读介质 |
CN113420072A (zh) * | 2021-06-24 | 2021-09-21 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113420072B (zh) * | 2021-06-24 | 2024-04-05 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113408668A (zh) * | 2021-07-30 | 2021-09-17 | 深圳前海微众银行股份有限公司 | 基于联邦学习***的决策树构建方法、装置及电子设备 |
CN113506163A (zh) * | 2021-09-07 | 2021-10-15 | 百融云创科技股份有限公司 | 一种基于纵向联邦的孤立森林训练和预测方法及*** |
CN114996749A (zh) * | 2022-08-05 | 2022-09-02 | 蓝象智联(杭州)科技有限公司 | 一种用于联邦学习的特征过滤方法 |
CN114996749B (zh) * | 2022-08-05 | 2022-11-25 | 蓝象智联(杭州)科技有限公司 | 一种用于联邦学习的特征过滤方法 |
CN115766282A (zh) * | 2022-12-12 | 2023-03-07 | 张家港金典软件有限公司 | 一种用于企业信息安全监督的数据处理方法及*** |
CN115766282B (zh) * | 2022-12-12 | 2024-05-24 | 张家港金典软件有限公司 | 一种用于企业信息安全监督的数据处理方法及*** |
CN117077067A (zh) * | 2023-10-18 | 2023-11-17 | 北京亚康万玮信息技术股份有限公司 | 一种基于智能匹配的信息***自动部署规划方法 |
CN117077067B (zh) * | 2023-10-18 | 2023-12-22 | 北京亚康万玮信息技术股份有限公司 | 一种基于智能匹配的信息***自动部署规划方法 |
Also Published As
Publication number | Publication date |
---|---|
TW202123050A (zh) | 2021-06-16 |
CN113065610A (zh) | 2021-07-02 |
CN113065610B (zh) | 2022-05-17 |
TWI780433B (zh) | 2022-10-11 |
WO2021114821A1 (zh) | 2021-06-17 |
CN110991552B (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991552B (zh) | 基于联邦学习的孤立森林模型构建和预测方法和装置 | |
CN111401700B (zh) | 一种数据分析方法、装置、计算机***及可读存储介质 | |
da Rocha et al. | Identifying bank frauds using CRISP-DM and decision trees | |
CN110992167A (zh) | 银行客户业务意图识别方法及装置 | |
CN111177473B (zh) | 人员关系分析方法、装置和可读存储介质 | |
CN110795603B (zh) | 一种基于树模型的预测方法和装置 | |
CN110147925B (zh) | 一种风险决策方法、装置、设备及*** | |
CN111460312A (zh) | 空壳企业识别方法、装置及计算机设备 | |
CN108920530B (zh) | 一种信息处理方法、装置、存储介质及电子设备 | |
CN113971527A (zh) | 基于机器学习的数据风险评估方法及装置 | |
CN111160783A (zh) | 数字资产价值的评价方法、***及电子设备 | |
CN112200382A (zh) | 一种风险预测模型的训练方法和装置 | |
CN114492605A (zh) | 联邦学习特征选择方法、装置、***以及电子设备 | |
CN113361954A (zh) | 归因分析方法、装置、设备及存储介质 | |
CN110874638B (zh) | 面向行为分析的元知识联邦方法、装置、电子设备及*** | |
CN113723477A (zh) | 一种基于孤立森林的跨特征联邦异常数据检测方法 | |
CN109711849B (zh) | 以太坊地址画像生成方法、装置、电子设备及存储介质 | |
CN113689270B (zh) | 黑产设备的确定方法、电子设备、存储介质及程序产品 | |
CN106257507A (zh) | 用户行为的风险评估方法及装置 | |
CN110213094B (zh) | 一种威胁活动拓扑图的建立方法、装置及存储设备 | |
JP2009116844A (ja) | 社会ネットワーク構造モデルを算出する電子計算機及びプログラム | |
CN109993338B (zh) | 一种链路预测方法及装置 | |
US9235616B2 (en) | Systems and methods for partial workflow matching | |
CN113592529A (zh) | 债券产品的潜在客户推荐方法和装置 | |
Manavalan et al. | Visualizing the Impact of Cyberattacks on Web-Based Transactions on Large-Scale Data and Knowledge-Based Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40026939 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |