CN113392164B - 构建纵向联邦树的方法、主服务器、业务平台和*** - Google Patents

构建纵向联邦树的方法、主服务器、业务平台和*** Download PDF

Info

Publication number
CN113392164B
CN113392164B CN202010174360.9A CN202010174360A CN113392164B CN 113392164 B CN113392164 B CN 113392164B CN 202010174360 A CN202010174360 A CN 202010174360A CN 113392164 B CN113392164 B CN 113392164B
Authority
CN
China
Prior art keywords
vector
tree
service platform
common
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010174360.9A
Other languages
English (en)
Other versions
CN113392164A (zh
Inventor
刘洋
杜师帅
张芳娟
张钧波
郑宇�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong City Beijing Digital Technology Co Ltd
Original Assignee
Jingdong City Beijing Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong City Beijing Digital Technology Co Ltd filed Critical Jingdong City Beijing Digital Technology Co Ltd
Priority to CN202010174360.9A priority Critical patent/CN113392164B/zh
Publication of CN113392164A publication Critical patent/CN113392164A/zh
Application granted granted Critical
Publication of CN113392164B publication Critical patent/CN113392164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提出一种构建纵向联邦树的方法、主服务器、业务平台和***。主服务器根据各个业务平台的共同样本的特征的维度之和以及预设参数确定第一向量,预设参数表示不参与节点***的特征个数,第一向量表示每个特征参与节点***的程度;根据局部第二向量确定全局第二向量,局部/全局第二向量分别表示每个共同样本在某一个/所有业务平台的特征向量与相应的特征参考向量之间的距离,特征参考向量表示每个特征的取值范围内的***点;将第一向量和全局第二向量的乘积值下发给各个业务平台,以使得各个业务平台将乘积值作为***值进行纵向联邦树的节点***,避免了各个业务平台的原始数据和样本的数据分布信息暴露的风险,增强了数据的安全性和隐私性。

Description

构建纵向联邦树的方法、主服务器、业务平台和***
技术领域
本公开涉及计算机技术领域,特别涉及一种构建纵向联邦树的方法、主服务器、业务平台和***。
背景技术
大数据时代产生的海量信息推动了人工智能的不断进步和发展,保护企业、个人、政府等其他机构的业务平台的数据的安全是合法利用大数据推动社会进步的前提。一些机构的业务平台需要在不共享数据的同时,能够联合其他机构的业务平台具有的数据来进行跨机构联合建模,因此,在保护数据安全和隐私性的前提下实现联合建模是当下需要解决的重要问题。
针对一些业务平台之间数据样本中存在的样本重叠较多而样本特征重叠较少的情况,由此,在一些相关技术中提出了纵向联邦树模型,利用各个业务平台样本相同而样本特征不完全相同的数据样本联合起来构建联邦树模型。
在构建纵向联邦树模型的过程中,业务平台每次基于随机选择的一个特征进行节点的一次***,并将本地样本基于该次***的数据分布信息等训练结果通过主服务器共享给其他业务平台,可以在不暴露业务平台自身所拥有的原始数据的情况下,通过一个主服务器来收集和共享各个业务平台的数据分布等信息,协调各业务平台以实现跨平台的统一建模。
发明内容
发明人发现,在多个业务平台参与构建纵向联邦树模型的相关技术中,虽然不会暴露业务平台的原始数据,但是会暴露样本的数据分布信息,对数据的安全和隐私性造成一定程度的威胁。
在本公开实施例中,主服务器根据收集的各个业务平台的共同样本所具有的特征维度之和以及预设参数生成第一向量,根据收集的各个业务平台的局部第二向量生成全局第二向量,并将第一向量和全局第二向量的乘积值下发给各个业务平台,以使得各个业务平台将该乘积值作为***值进行纵向联邦树的节点的***,最终完成纵向联邦树模型的构建,避免了各个业务平台的原始数据或样本的数据分布信息暴露的风险,增强了数据的安全性和隐私性。
根据本公开的一些实施例,提供一种纵向联邦树的构建方法,包括:
主服务器根据各个业务平台的共同样本所具有的所有特征的维度之和以及预设参数确定第一向量,所述预设参数表示不参与所述纵向联邦树的本次节点***的所述特征的个数,所述第一向量表示每个特征参与所述纵向联邦树的本次节点***的程度;
主服务器根据收集的各个业务平台的局部第二向量确定全局第二向量,所述局部第二向量表示每个共同样本在一个业务平台的特征向量与相应的特征参考向量之间的距离,所述全局第二向量表示每个共同样本在所有业务平台的特征向量与相应的特征参考向量之间的距离,所述特征参考向量表示各个业务平台的每个共同样本所具有的每个特征的特征取值范围内的随机***点;
主服务器计算所述第一向量和所述全局第二向量的乘积值,将所述乘积值下发给各个业务平台,以使得各个业务平台利用所述乘积值作为***值来进行纵向联邦树的节点的***;
重复上述所有步骤,直至满足预设的终止条件。
在一些实施例中,确定第一向量包括:生成一个符合正态分布的随机向量,所述随机向量的维度等于各个业务平台的共同样本所具有的所有特征的维度之和;将所述随机向量中的所述预设参数指示的相应个数的元素的值设置为0,得到所述第一向量。
在一些实施例中,确定全局第二向量包括:将各个业务平台的局部第二向量的并集确定为全局第二向量。
在一些实施例中,还包括:主服务器对各个业务平台的原始样本进行样本对齐,将对齐的原始样本确定为各个业务平台所具有的共同样本。
在一些实施例中,主服务器根据收集的各个业务平台的各个共同样本分别所具有的特征的维度确定各个业务平台的共同样本所具有的所有特征的维度之和。
在一些实施例中,所述预设参数小于所有业务平台的共同样本所具有的所有特征的维度之和。
在一些实施例中,所述纵向联邦树用于评估用户信用,所述各个业务平台包括拥有待评估信用的用户样本的多个业务平台,所述共同样本是共同用户样本,所述共同用户样本是所述各个业务平台共同拥有的用户样本,节点***过程中共同用户样本所在节点的纵向联邦树深度信息与所述共同用户样本的信用信息相对应。
根据本公开的另一些实施例,提供一种构建纵向联邦树的方法,包括:
业务平台计算局部第二向量,将所述局部第二向量上报给主服务器,使得所述主服务器根据收集的各个业务平台的局部第二向量确定全局第二向量,所述局部第二向量表示每个共同样本在一个业务平台的特征向量与相应的特征参考向量之间的距离,所述全局第二向量表示每个共同样本在所有业务平台的特征向量与相应的特征参考向量之间的距离,所述特征参考向量表示业务平台的共同样本所具有的每个特征的特征取值范围内的随机***点;
业务平台接收主服务器下发的第一向量和全局第二向量的乘积值,所述第一向量表示每个特征参与所述纵向联邦树的本次节点***的程度;
业务平台利用所述第一向量和所述全局第二向量的乘积值作为每个共同样本的***值来进行纵向联邦树的节点的***,以构建纵向联邦树;
业务平台重复执行上述所有步骤,直至满足预设的终止条件。
在一些实施例中,还包括:业务平台接收主服务器下发的对各个业务平台的样本进行对齐后所确定的共同样本。
在一些实施例中,所述业务平台利用所述第一向量和所述全局第二向量的乘积值作为每个共同样本的***值来进行纵向联邦树的节点的***包括:根据每个共同样本所对应的所述***值对当前节点进行***,以确定所述共同样本所属的所述当前节点的子节点。
在一些实施例中,根据每个共同样本所对应的所述***值对当前节点进行***包括:如果共同样本对应的***值小于0,将所述共同样本划分到当前节点的右子节点,如果共同样本对应的***值大于0,将所述共同样本划分到当前节点的左子节点;或者,如果共同样本对应的***值小于0,将所述共同样本划分到当前节点的左子节点,如果共同样本对应的***值大于0,将所述共同样本划分到当前节点的右子节点。
在一些实施例中,所述终止条件包括:纵向联邦树的深度达到预设深度;或者,纵向联邦树的叶子节点的样本数量达到预设数量。
在一些实施例中,还包括:利用任一实施例所述的构建纵向联邦树的方法,构建多个纵向联邦树,以生成纵向联邦森林。
在一些实施例中,还包括:业务平台初始化纵向联邦树的根节点,使得根节点包括所述业务平台的所有共同样本。
在一些实施例中,所述纵向联邦树用于评估用户信用,所述各个业务平台包括拥有待评估信用的用户样本的多个业务平台,所述共同样本是共同用户样本,所述共同用户样本是各个业务平台共同拥有的用户样本,节点***过程中共同用户样本所在节点的纵向联邦树的深度信息与所述共同用户样本的信用信息相对应。
根据本公开的又一些实施例,提供一种构建纵向联邦树的主服务器,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行任一实施例所述的构建纵向联邦树的方法。
根据本公开的再一些实施例,提供一种构建纵向联邦树的业务平台,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行任一实施例所述的构建纵向联邦树的方法。
根据本公开的又再一些实施例,提供一种构建纵向联邦树的***包括:任一实施例所述的主服务器和多个任一实施例所述的业务平台。
根据本公开的又再一些实施例,提供一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的构建纵向联邦树的方法。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开。
显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出根据本公开的一些示例性实施例的构建纵向联邦树的方法的流程示意图。
图2示出根据本公开的另一些示例性实施例的构建纵向联邦树的方法的流程示意图。
图3示出根据本公开的一些示例性实施例的各个业务平台利用第一向量和第二向量进行纵向联邦树节点的***的示意图。
图4示出根据本公开的一些示例性实施例的构建纵向联邦树的主服务器的示意图。
图5示出根据本公开的一些示例性实施例的构建纵向联邦树的业务平台的示意图。
图6示出根据本公开的一些示例性实施例的构建纵向联邦树的***的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
在多个业务平台参与构建纵向联邦树模型的技术领域中,由于会暴露样本的数据分布信息,对数据的安全和隐私性造成一定程度的威胁,因此,提出本公开。
图1示出根据本公开的一些示例性实施例的构建纵向联邦树的方法的流程示意图。各个业务平台连入主服务器,并通过主服务器联合构建纵向联邦树。
如图1所示,该实施例的方法包括步骤101-105。
在步骤101,主服务器对各个业务平台的原始样本进行样本对齐,将对齐的原始样本确定为各个业务平台所具有的共同样本,共同样本是各个业务平台共同拥有的样本。
在一些实施例中,所有业务平台上报各自本地所具有的所有样本信息(如样本名称)给主服务器,主服务器根据上述各个业务平台上报的各自的本地样本,选取所有业务平台共同拥有的样本,并确定为共同样本,将该共同样本下发给各个业务平台,使得各个业务平台后续利用共同样本构建纵向联邦树。
在步骤102,主服务器根据各个业务平台的共同样本所具有的所有特征的维度之和以及预设参数确定第一向量。
其中,预设参数表示不参与纵向联邦树的本次节点***的特征的个数。本公开中的预设参数是一个超参数,即可自定义的参数,可以根据需要预先设置。预设参数小于所有业务平台的共同样本所具有的所有特征的维度之和,即预设参数的取值范围为区间[0,n-1]之间的正整数,其中n为所有特征的维度之和。
其中,第一向量表示每个特征参与纵向联邦树的本次节点***的程度。在确定第一向量之前,首先,各个业务平台将本地的共同样本所具有的所有特征的维度上报给主服务器,主服务器根据收集的各个业务平台的各个共同样本分别所具有的特征的维度,确定所有业务平台的共同样本所具有的所有特征的维度之和。然后,利用确定的共同样本的所有特征的维度之和以及预设参数确定第一向量,在一些实施例中,确定第一向量的方法包括:生成一个符合正态分布的随机向量,随机向量的维度等于各个业务平台的共同样本所具有的所有特征的维度之和;将随机向量中的预设参数指示的相应个数的元素的值设置为0,得到第一向量。第一向量中元素为0的个数表示不参与纵向联邦树的本次节点***的特征的个数。按照该方法确定的第一向量是随机的,表示每个特征参与纵向联邦树的本次节点***的程度是随机的,使得每个特征均获得被选中参与节点***的机会。
在步骤103,主服务器根据收集的各个业务平台的局部第二向量确定全局第二向量。
其中,局部第二向量表示每个共同样本在一个业务平台的特征向量与相应的特征参考向量之间的距离。全局第二向量表示每个共同样本在所有业务平台的特征向量与相应的特征参考向量之间的距离。特征参考向量表示各个业务平台的每个共同样本所具有的每个特征的特征取值范围内的随机***点。
业务平台计算局部第二向量,并将局部第二向量上报给主服务器,主服务器根据收集的各个业务平台的局部第二向量确定全局第二向量。其中,在一些实施例中,各个业务平台计算本地的局部第二向量的方法例如包括:业务平台根据本地的共同样本的每个特征的取值确定该业务平台上所具有的共同样本对应的每个特征的取值范围,在每个特征的取值范围内选取一个数值,如果有多个特征,则将选取出的多个数值作为该业务平台的特征参考向量,然后计算该业务平台的每个共同样本的特征向量与相应的特征参考向量之间的距离,将特征向量与特征参考向量的距离所形成的距离向量确定为该业务平台对应的局部第二向量。在一些实施例中,主服务器确定全局第二向量的方法例如包括:主服务器将收集的各个业务平台的局部第二向量的并集确定为全局第二向量。
在步骤104,主服务器计算第一向量和全局第二向量的乘积值,将乘积值下发给各个业务平台。
主服务器计算多个共同样本的第一向量和全局第二向量的乘积值,得到每个共同样本对应的一个乘积值,将该乘积值下发给各个业务平台。
在步骤105,各个业务平台利用乘积值作为***值来进行纵向联邦树的节点的***,以构建纵向联邦树。
构建纵向联邦树的方法例如包括:首先,业务平台初始化纵向联邦树的根节点,使得根节点包括该业务平台的所有共同样本。然后,业务平台利用第一向量和全局第二向量的乘积值作为每个共同样本的***值来进行纵向联邦树的节点的***。节点***的方法例如包括:根据每个共同样本所对应的***值对当前节点进行***,以确定共同样本所属的当前节点的子节点。***规则例如为,如果共同样本对应的***值小于0,将共同样本划分到当前节点的右子节点,如果共同样本对应的***值大于0,将共同样本划分到当前节点的左子节点;或者,***规则为,如果共同样本对应的***值小于0,将共同样本划分到当前节点的左子节点,如果共同样本对应的***值大于0,将共同样本划分到当前节点的右子节点。需要说明的,在一个纵向联邦树的构建过程中,***规则应当是一致的。在不同的纵向联邦树的构建过程中,***规则可以是不同的。
重复执行上述步骤102-105,直至满足预设的终止条件。其中,终止条件包括:纵向联邦树的深度达到预设深度;或者,纵向联邦树的叶子节点的纯度(例如叶子节点的样本数量)达到预设数量,例如可以是每个叶子节点的样本数量达到预设数量,或者一定比例的叶子节点的样本数量达到预设数量。
另外,可以利用上述构建纵向联邦树的方法,构建多个纵向联邦树,由此以生成纵向联邦森林。
上述实施例,主服务器根据收集的各个业务平台的共同样本所具有的特征维度之和以及预设参数生成第一向量,根据收集的各个业务平台的局部第二向量生成全局第二向量,并将第一向量和全局第二向量的乘积值下发给各个业务平台,以使得各个业务平台将该乘积值作为***值进行纵向联邦树的节点的***,最终完成纵向联邦树模型的构建,避免了各个业务平台的原始数据或样本的数据分布信息暴露的风险,增强了数据的安全性和隐私性。
此外,主服务器与各个业务平台之间传输的数据,例如,样本名称、特征维度、局部第二向量、以及两个随机向量(第一向量、全局第二向量),由于不涉及业务平台本地数据的隐私性,可以不采用加密方式传输,节省了加密的处理时间,有利于提高纵向联邦树模型的构建效率。
此外,在构建纵向联邦树过程中,样本的所有特征均有机会共同参与节点***,相对于每次仅有一个特征参与节点***,有利于降低构建纵向联邦树模型的时间复杂度和提高纵向联邦树模型的性能的稳定性。
本实施例的纵向联邦树的构建方法可以应用于针对多个业务平台上拥有的业务样本相同、而业务样本的特征不同的数据集合进行分类的应用场景。
例如,纵向联邦树可以应用于评估用户信用。针对评估用户信用的业务场景,拥有待评估信用的用户样本的多个业务平台作为参与构建纵向联邦树的多个业务平台,各个业务平台所共同拥有的用户样本作为各个业务平台所具有的共同用户样本,不同业务平台上的共同用户样本的信用特征可以是不同的,***过程中共同用户样本所在节点的纵向联邦树深度信息与共同用户样本的信用信息相对应,该对应关系可以根据具体的业务场景设置。如果评测的是用户样本的信用异常和信用正常相关的性能,那么用户样本所在节点的纵向联邦树深度越大,该用户样本的信用异常的概率越小,信用正常的概率越大。
例如,预评估用户样本的信用。电商机构A拥有100个用户,记为U1-U100,电商机构A的业务平台A记录有每个用户样本U1-U100的网购消费记录,例如网购金额、网购频次等信用特征。金融机构B拥有80个用户,记为U1-U80,金融机构B的业务平台B记录有每个用户样本U1-U80的金融交易记录,例如转账金额、***金额、***频次、***额度、***还款记录、工资流水线等信用特征。业务平台A和业务平台B的用户样本均记录有用户U1-U80,因此主服务器可以将用户样本U1-U80选取为业务平台A和业务平台B共同具有的共同用户样本。业务平台A具有的共同用户样本的信用特征(网购金额、网购频次)的维度为2。业务平台B具有的共同用户样本的特征(转账金额、***金额、***频次、***额度、***还款记录、工资流水线)的维度为6。主服务器确定各个业务平台的共同样本所具有的所有特征的维度之和为8(即2+6=8)。主服务器根据业务平台A和B的共同用户样本的所有信用特征的维度之和以及预设参数(表示不参与纵向联邦树的本次节点***的信用特征的个数)生成第一向量(表示每个信用特征参与纵向联邦树的本次节点***的程度),根据业务平台A和B上报的各自的局部第二向量(表示某一个业务平台A或B的每个共同用户样本的信用特征向量与相应的信用特征参考向量之间的距离,信用特征参考向量表示每个共同用户样本所具有的每个信用特征的特征取值范围内的随机***点)生成全局第二向量(表示所有业务平台A和B的所有共同用户样本的信用特征向量与相应的信用特征参考向量之间的距离),将第一向量与全局第二向量的乘积值下发给各业务平台。第一向量和全局第二向量的具体计算方法可以参考图1和图2所示实施例的描述。业务平台A和业务平台B利用本地的共同用户样本以及主服务器下发的上述乘积值,可以构建用来评估用户信用的纵向联邦树。其中,用户样本所在节点的纵向联邦树深度信息与表示用户样本的正常信用和异常信用的信用信息相对应,用户样本所在节点的纵向联邦树深度越大,该用户样本信用异常的概率越小,信用正常的概率越大。
图2示出根据本公开的另一些示例性实施例的构建纵向联邦树的方法的流程示意图。
如图2所示,该实施例的方法包括步骤201-209。
在步骤201,主服务器对各个业务平台的原始样本进行样本对齐,将对齐的原始样本确定为各个业务平台拥有的共同样本。具体方法参考步骤101。
例如,业务平台1的用户样本集合为:
用户样本 信用特征1-feature1 信用特征2-feature2
A 0.1 1
B 0.3 3
C 0.2 4
业务平台2的用户样本集合为:
用户样本 信用特征3-feature3
B 3
C 4
业务平台1向主服务器上报用户样本名称A、B、C,业务平台2向主服务器上报用户名称B、C,主服务器对业务平台1-2的原始样本进行样本对齐,确定用户样本B、C为两个业务平台的共同样本。
共同样本确定后,各业务平台实际用于构建纵向联邦树模型的样本集合如下:
业务平台1的用户样本集合为:
用户样本 信用特征1-feature1 信用特征2-feature2
B 0.3 3
C 0.2 4
业务平台2的样本集合为:
用户样本 信用特征3-feature3
B 3
C 4
在步骤202,各个业务平台初始化纵向联邦树的根节点,每个业务平台上的纵向联邦树的根节点初始化为包括该业务平台上本地的所有样本,后续以根节点为起始节点逐级进行节点的***。
例如,业务平台1和业务平台2初始化后的根节点都包括共同用户样本B、C。
在步骤203,各个业务平台将各自本地的共同样本所具有的特征的维度(即局部特征维度)上报给主服务器,主服务器根据预设参数以及各个局部特征维度之和确定第一向量。
预设参数、第一向量的含义以及确定第一向量的具体方法参考步骤102。
例如,业务平台1的共同样本的局部特征维度为2(feature1和feature2),业务平台2的共同样本的局部特征维度为1(feature3),所以,业务平台1-2的共同样本的所有局部特征的维度之和为3(即2+1=3),基于正态分布生成3维随机向量[n0,n1,n2],如[-1,1,0],假设预设参数为0,即所有特征均参与本次节点的***,此时3维随机向量等于第一向量,将第一向量标记为n,则n=[-1,1,0]。
在步骤204,各个业务平台计算局部第二向量,并上报给主服务器,主服务器将每个业务平台对应的多个局部第二向量拼接形成全局第二向量。
局部第二向量和全局第二向量的含义、各个业务平台计算局部第二向量以及主服务器确定全局第二向量的具体方法参考步骤103。
例如,业务平台1的共同样本的特征维度为2,则业务平台1对应的特征参考向量p1为2维向量,p1的两个元素的值分别是由业务平台1上的feature1和feature2的特征取值范围决定的。例如,业务平台1的feature1的特征取值范围[0.2,0.3],feature2的特征取值范围[3,4],p1的第一个元素在区间[0.2,0.3]内选取一个数值,例如0.25,p1的第二个元素在区间[3,4]内选取一个数值,例如3.8,则业务平台1的特征参考向量p1为[0.25,3.8]。同样的方法,例如,业务平台2的共同样本的特征维度为1,则业务平台2对应的特征参考向量p2为1维向量,p2的元素的值是由业务平台2上的feature3的特征取值范围决定的,例如在feature3的特征取值范围区间[3,4]内选取一个数值3.5,则业务平台2的特征参考向量p2为[3.5]。
针对共同用户样本B,共同用户样本B在业务平台1的特征向量XB-1与业务平台1对应的特征参考向量p1的距离(即,共同用户样本B在业务平台1的局部第二向量)表示为XB-1-p1=[0.3,3]-[0.25,3.8]=[0.05,-0.8],共同用户样本B在业务平台2的特征向量XB-2与业务平台2对应的特征参考向量p2的距离(即,共同用户样本B在业务平台2的局部第二向量)表示为XB-2-p2=[3]-[3.5]=[-0.5],主服务器将收集的共同用户样本B在业务平台1的局部第二向量和在业务平台2的局部第二向量拼接形成共同用户样本B的三维的全局第二向量(用XB-p表示)为[0.05,-0.8,-0.5]。
共同用户样本C的全局第二向量的计算方法与共同用户样本B的全局第二向量的计算方法相同,这里不再赘述。
在步骤205,主服务器计算待***的当前节点的所有共同样本所对应的全局第二向量与第一向量的乘积值,并将该乘积值下发给各个业务平台,以使得各个业务平台利用上述乘积值作为***值来进行节点的***。
例如,共同用户样本B的三维的全局第二向量(XB-p)为[0.05,-0.8,-0.5],第一向量n=[-1,1,0],则共同用户样本B的三维的全局第二向量与第一向量的乘积值表示为(XB-p)*n=0.05*(-1)+(-0.8)*(1)+(-0.5)*0=-0.85。
在步骤206,各个业务平台利用主服务器下发的乘积值来进行节点的***,并存储当前节点的参数,如第一向量、局部第二向量以及纵向联邦树的当前深度等。
例如,共同用户样本B的三维的全局第二向量与第一向量的乘积值为(XB-p)*n=0.05*(-1)+(-0.8)*(1)+(-0.5)*0=-0.85。如果***规则为乘积值小于0,划分到右子节点,由于-0.85<0,则共同用户样本B被划分到右子节点。
如图3所示,示出了根据本公开的一些示例性实施例的各个业务平台利用第一向量和第二向量进行纵向联邦树节点的***的示意图。假设有m个业务平台,分别标记为业务平台1,业务平台2,……,业务平台m,假设各个业务平台拥有1个共同样本,该共同样本对应的特征向量分别标记为x1,x2,……,xm。例如,业务平台将共同样本在本地所对应的局部特征维度上报给主服务器,主服务器求得该共同样本在所有业务平台的所有局部特征维度之和,并根据所有局部特征维度之和以及预设参数确定第一向量(表示为n)。业务平台将各自本地的局部第二向量(即该共同样本在某一个业务平台上的特征向量与对应的局部特征参考向量的距离,表示为x1-p1,x2-p2,……,xm-pm)上报给主服务器,主服务器将各个业务平台上报的局部第二向量拼接形成全局第二向量(即该共同样本在所有业务平台上的特征向量与对应的局部特征参考向量的距离,表示为x-p)。主服务器给各个业务平台下发该共同样本对应的第一向量与全局第二向量的乘积值(x-p)*n,各个业务平台根据***规则,将(x-p)*n的计算值大于0对应的样本划分到右子节点,(x-p)*n的计算值小于0对应的样本划分到左子节点。
可见,在构建纵向联邦树过程中,样本的所有特征均有机会共同参与节点***,相对于每次仅有一个特征参与节点***,有利于降低构建纵向联邦树模型的时间复杂度和提高纵向联邦树模型的性能的稳定性。
在步骤207,在纵向联邦树的下一个节点处,业务平台判断是否满足终止条件,判断结果可以以显式或隐式的方式告知主服务器,如果不满足终止条件,重复步骤202-206;如果满足终止条件,则进入步骤208,存储当前节点为纵向联邦树的叶子节点,***终止。
其中,终止条件例如可以是纵向联邦树的深度达到预设树深,或者每个叶子节点的样本数量达到预设样本数量。
其中,隐式告知方式,例如可以是业务平台向主服务器继续上报用来生成第一向量和第二向量的相关局部信息;显式告知方式,例如可以是业务平台将终止或不终止的判断结果直接告知主服务器。
如果需要构建联邦森林,则继续执行步骤209。
在步骤209,重复步骤202-208,在各个业务平台上迭代地创建每一个纵向联邦树,直到达到预设的迭代次数。其中,迭代次数即为创建的纵向联邦树的个数,创建的多个联邦树可以构成一个联邦森林。
联邦森林将多个联邦树的“弱模型”集合起来得到一个“强模型”,联邦森林的准确率根据多个联邦树的结果综合决定,提高了模型的准确率。
图4示出根据本公开的一些示例性实施例的构建纵向联邦树的主服务器的示意图。
如图4所示,该实施例的构建纵向联邦树的主服务器400包括:存储器401以及耦接至该存储器401的处理器402,处理器402被配置为基于存储在存储器401中的指令,执行前述任意一些实施例中的主服务器构建纵向联邦树的方法。
其中,主服务器400构建纵向联邦树的方法例如包括:主服务器400收集各个业务平台的共同样本所具有的所有特征的维度,根据收集的所有特征的维度之和以及预设参数确定第一向量,其中,预设参数表示不参与纵向联邦树的本次节点***的特征的个数,第一向量表示每个特征参与纵向联邦树的本次节点***的程度。主服务器400收集各个业务平台的局部第二向量,将所有业务平台对应的多个局部第二向量的并集确定为全局第二向量,其中,局部第二向量表示每个共同样本在一个业务平台的特征向量与相应的特征参考向量之间的距离,全局第二向量表示每个共同样本在所有业务平台的特征向量与相应的特征参考向量之间的距离,特征参考向量表示各个业务平台的每个共同样本所具有的每个特征的特征取值范围内的随机***点。然后,主服务器400计算第一向量和全局第二向量的乘积值,将上述乘积值下发给各个业务平台,以使得各个业务平台进行纵向联邦树的节点的***。
其中,存储器401例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)以及其他程序等。
构建纵向联邦树的主服务器400还可以包括输入输出接口403、网络接口404、存储接口405等。这些接口403,404,405以及存储器401和处理器402之间例如可以通过总线406连接。其中,输入输出接口403为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口404为各种联网设备提供连接接口。存储接口405为SD卡、U盘等外置存储设备提供连接接口。
图5示出根据本公开的另一些示例性实施例的构建纵向联邦树的业务平台的示意图。
如图5所示,该实施例的构建纵向联邦树的业务平台500包括:存储器501以及耦接至该存储器501的处理器502,处理器502被配置为基于存储在存储器501中的指令,执行前述任意一些实施例中的业务平台构建纵向联邦树的方法。
其中,业务平台500构建纵向联邦树的方法例如包括:业务平台500计算局部第二向量,将局部第二向量上报给主服务器,使得主服务器根据收集的各个业务平台的局部第二向量确定全局第二向量,其中,局部第二向量表示每个共同样本在一个业务平台的特征向量与相应的特征参考向量之间的距离,特征参考向量表示业务平台的共同样本所具有的每个特征的特征取值范围内的随机***点。然后,业务平台500接收主服务器下发的第一向量和全局第二向量的乘积值,其中,第一向量表示每个特征参与纵向联邦树的本次节点***的程度,全局第二向量表示每个共同样本在所有业务平台的特征向量与相应的特征参考向量之间的距离。接着,业务平台500利用第一向量和全局第二向量的乘积值作为每个共同样本的***值来进行纵向联邦树的节点的***,以构建纵向联邦树;业务平台500重复执行上述所有步骤,直至满足预设的终止条件,完成纵向联邦树的构建。
其中,存储器501例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)以及其他程序等。
构建纵向联邦树的业务平台500还可以包括输入输出接口503、网络接口504、存储接口505等。这些接口503,504,505以及存储器501和处理器502之间例如可以通过总线506连接。其中,输入输出接口503为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口504为各种联网设备提供连接接口。存储接口505为SD卡、U盘等外置存储设备提供连接接口。
图6示出根据本公开的一些示例性实施例的构建纵向联邦树的***的示意图。
如图6所示,该实施例的构建纵向联邦树的***600包括:前述的主服务器400和多个前述的业务平台500。
其中,主服务器400被配置为接收各个业务平台500传输来的本地的局部数据(如局部样本名称、局部特征维度或局部第二向量),以及生成全局数据(如第一向量和全局第二向量的乘积值)并将全局数据下发给各个业务平台500,以使得各个业务平台500利用主服务器400下发的全局数据分别在平台本地完成纵向联邦树的构建。业务平台400被配置为给主服务器上报前述的各种局部数据,接收主服务器下发的第一向量和全局第二向量的乘积值,然后利用第一向量和全局第二向量的乘积值完成本平台上的所有样本的***,直到满足终止条件,完成联邦树的构建。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (19)

1.一种构建纵向联邦树的方法,其特征在于,包括:
主服务器根据各个业务平台的共同样本所具有的所有特征的维度之和以及预设参数确定第一向量,所述预设参数表示不参与所述纵向联邦树的本次节点***的所述特征的个数,所述第一向量表示每个特征参与所述纵向联邦树的本次节点***的程度;
主服务器根据收集的各个业务平台的局部第二向量确定全局第二向量,所述局部第二向量表示每个共同样本在一个业务平台的特征向量与相应的特征参考向量之间的距离,所述全局第二向量表示每个共同样本在所有业务平台的特征向量与相应的特征参考向量之间的距离,所述特征参考向量表示各个业务平台的每个共同样本所具有的每个特征的特征取值范围内的随机***点;
主服务器计算所述第一向量和所述全局第二向量的乘积值,将所述乘积值下发给各个业务平台,以使得各个业务平台利用所述乘积值作为***值来进行纵向联邦树的节点的***;
重复上述所有步骤,直至满足预设的终止条件。
2.根据权利要求1所述的构建纵向联邦树的方法,其特征在于,确定第一向量包括:
生成一个符合正态分布的随机向量,所述随机向量的维度等于各个业务平台的共同样本所具有的所有特征的维度之和;
将所述随机向量中的所述预设参数指示的相应个数的元素的值设置为0,得到所述第一向量。
3.根据权利要求1所述的构建纵向联邦树的方法,其特征在于,确定全局第二向量包括:
将各个业务平台的局部第二向量的并集确定为全局第二向量。
4.根据权利要求1所述的构建纵向联邦树的方法,其特征在于,还包括:
主服务器对各个业务平台的原始样本进行样本对齐,将对齐的原始样本确定为各个业务平台所具有的共同样本。
5.根据权利要求1所述的构建纵向联邦树的方法,其特征在于,主服务器根据收集的各个业务平台的各个共同样本分别所具有的特征的维度确定各个业务平台的共同样本所具有的所有特征的维度之和。
6.根据权利要求1所述的构建纵向联邦树的方法,其特征在于,所述预设参数小于所有业务平台的共同样本所具有的所有特征的维度之和。
7.根据权利要求1-6任一项所述的构建纵向联邦树的方法,其特征在于,所述纵向联邦树用于评估用户信用,所述各个业务平台包括拥有待评估信用的用户样本的多个业务平台,所述共同样本是共同用户样本,所述共同用户样本是所述各个业务平台共同拥有的用户样本,节点***过程中共同用户样本所在节点的纵向联邦树深度信息与所述共同用户样本的信用信息相对应。
8.一种构建纵向联邦树的方法,其特征在于,包括:
业务平台计算局部第二向量,将所述局部第二向量上报给主服务器,使得所述主服务器根据收集的各个业务平台的局部第二向量确定全局第二向量,所述局部第二向量表示每个共同样本在一个业务平台的特征向量与相应的特征参考向量之间的距离,所述全局第二向量表示每个共同样本在所有业务平台的特征向量与相应的特征参考向量之间的距离,所述特征参考向量表示业务平台的共同样本所具有的每个特征的特征取值范围内的随机***点;
业务平台接收主服务器下发的第一向量和全局第二向量的乘积值,所述第一向量表示每个特征参与所述纵向联邦树的本次节点***的程度;
业务平台利用所述第一向量和所述全局第二向量的乘积值作为每个共同样本的***值来进行纵向联邦树的节点的***,以构建纵向联邦树;
业务平台重复执行上述所有步骤,直至满足预设的终止条件。
9.根据权利要求8所述的构建纵向联邦树的方法,其特征在于,还包括:
业务平台接收主服务器下发的对各个业务平台的样本进行对齐后所确定的共同样本。
10.根据权利要求8所述的构建纵向联邦树的方法,其特征在于,所述业务平台利用所述第一向量和所述全局第二向量的乘积值作为每个共同样本的***值来进行纵向联邦树的节点的***包括:
根据每个共同样本所对应的所述***值对当前节点进行***,以确定所述共同样本所属的所述当前节点的子节点。
11.根据权利要求8所述的构建纵向联邦树的方法,其特征在于,根据每个共同样本所对应的所述***值对当前节点进行***包括:
如果共同样本对应的***值小于0,将所述共同样本划分到当前节点的右子节点,如果共同样本对应的***值大于0,将所述共同样本划分到当前节点的左子节点;
或者,如果共同样本对应的***值小于0,将所述共同样本划分到当前节点的左子节点,如果共同样本对应的***值大于0,将所述共同样本划分到当前节点的右子节点。
12.根据权利要求8所述的构建纵向联邦树的方法,其特征在于,所述终止条件包括:
纵向联邦树的深度达到预设深度;
或者,纵向联邦树的叶子节点的样本数量达到预设数量。
13.根据权利要求8所述的构建纵向联邦树的方法,其特征在于,还包括:
利用权利要求8所述的构建纵向联邦树的方法,构建多个纵向联邦树,以生成纵向联邦森林。
14.根据权利要求8所述的构建纵向联邦树的方法,其特征在于,还包括:
业务平台初始化纵向联邦树的根节点,使得根节点包括所述业务平台的所有共同样本。
15.根据权利要求8-14任一项所述的构建纵向联邦树的方法,其特征在于,所述纵向联邦树用于评估用户信用,所述各个业务平台包括拥有待评估信用的用户样本的多个业务平台,所述共同样本是共同用户样本,所述共同用户样本是各个业务平台共同拥有的用户样本,节点***过程中共同用户样本所在节点的纵向联邦树的深度信息与所述共同用户样本的信用信息相对应。
16.一种构建纵向联邦树的主服务器,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-7中任一项所述的构建纵向联邦树的方法。
17.一种构建纵向联邦树的业务平台,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求8-15中任一项所述的构建纵向联邦树的方法。
18.一种构建纵向联邦树的***包括:
权利要求16所述的主服务器和多个权利要求17所述的业务平台。
19.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-15中任一项所述的构建纵向联邦树的方法。
CN202010174360.9A 2020-03-13 2020-03-13 构建纵向联邦树的方法、主服务器、业务平台和*** Active CN113392164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010174360.9A CN113392164B (zh) 2020-03-13 2020-03-13 构建纵向联邦树的方法、主服务器、业务平台和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010174360.9A CN113392164B (zh) 2020-03-13 2020-03-13 构建纵向联邦树的方法、主服务器、业务平台和***

Publications (2)

Publication Number Publication Date
CN113392164A CN113392164A (zh) 2021-09-14
CN113392164B true CN113392164B (zh) 2024-01-12

Family

ID=77615861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010174360.9A Active CN113392164B (zh) 2020-03-13 2020-03-13 构建纵向联邦树的方法、主服务器、业务平台和***

Country Status (1)

Country Link
CN (1) CN113392164B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118641B (zh) * 2022-01-29 2022-04-19 华控清交信息科技(北京)有限公司 风电场功率预测方法、gbdt模型纵向训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109165683A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN110084377A (zh) * 2019-04-30 2019-08-02 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
CN110633805A (zh) * 2019-09-26 2019-12-31 深圳前海微众银行股份有限公司 纵向联邦学习***优化方法、装置、设备及可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10235633B2 (en) * 2014-12-19 2019-03-19 Medidata Solutions, Inc. Method and system for linking heterogeneous data sources

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109165683A (zh) * 2018-08-10 2019-01-08 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
WO2020029590A1 (zh) * 2018-08-10 2020-02-13 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN110084377A (zh) * 2019-04-30 2019-08-02 京东城市(南京)科技有限公司 用于构建决策树的方法和装置
CN110633805A (zh) * 2019-09-26 2019-12-31 深圳前海微众银行股份有限公司 纵向联邦学习***优化方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
联邦可视化:一种隐私保护的可视化新模型;魏雅婷;王智勇;周舒悦;陈为;;智能科学与技术学报(第04期);全文 *

Also Published As

Publication number Publication date
CN113392164A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN110874648A (zh) 联邦模型的训练方法、***和电子设备
CN112214499B (zh) 图数据处理方法、装置、计算机设备和存储介质
CN111461566B (zh) 一种基于消息流划分与合并的跨界服务流程融合方法及***
CN112396189A (zh) 一种多方构建联邦学习模型的方法及装置
US20220101189A1 (en) Federated inference
CN112799708A (zh) 联合更新业务模型的方法及***
US11714917B2 (en) Systems and methods for anonymizing sensitive data and simulating accelerated schedule parameters using the anonymized data
CN111340240A (zh) 实现自动机器学习的方法及装置
WO2023165271A1 (zh) 知识图谱的构建、和图计算
Kang et al. Simulation‐Based Optimization on the System‐of‐Systems Model via Model Transformation and Genetic Algorithm: A Case Study of Network‐Centric Warfare
CN112101577A (zh) 基于XGBoost的跨样本联邦学习、测试方法、***、设备和介质
WO2021118413A2 (en) Data processing method, comprising secure multilateral computing and data analysis methods
CN113392164B (zh) 构建纵向联邦树的方法、主服务器、业务平台和***
CN109583731A (zh) 一种风险识别方法、装置及设备
CN116167868A (zh) 基于隐私计算的风险识别方法、装置、设备以及存储介质
CN111784488A (zh) 企业资金风险预测方法及装置
CN113438237B (zh) 数据安全协同计算方法及***
CN113392101B (zh) 构建横向联邦树的方法、主服务器、业务平台和***
Khati et al. Non-fungible tokens applications: A systematic mapping review of academic research
CN104050291A (zh) 一种账户余额数据的并行处理方法和***
CN112132589A (zh) 一种基于多次融合构建欺诈识别模型的方法
CN115687526A (zh) 一种基于区块链和联邦学习的地震数据模型共享方法
JP5156692B2 (ja) 擬似データ生成装置、擬似データ生成方法及びコンピュータプログラム
CN117033997A (zh) 数据切分方法、装置、电子设备和介质
CN115034788A (zh) 交易风险评估方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant