CN111340614B - 基于联邦学习的样本采样方法、设备及可读存储介质 - Google Patents

基于联邦学习的样本采样方法、设备及可读存储介质 Download PDF

Info

Publication number
CN111340614B
CN111340614B CN202010123967.4A CN202010123967A CN111340614B CN 111340614 B CN111340614 B CN 111340614B CN 202010123967 A CN202010123967 A CN 202010123967A CN 111340614 B CN111340614 B CN 111340614B
Authority
CN
China
Prior art keywords
sampling
sample
gradient
algorithm model
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010123967.4A
Other languages
English (en)
Other versions
CN111340614A (zh
Inventor
马国强
范涛
郑会钿
魏文斌
谭明超
陈天健
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010123967.4A priority Critical patent/CN111340614B/zh
Publication of CN111340614A publication Critical patent/CN111340614A/zh
Application granted granted Critical
Publication of CN111340614B publication Critical patent/CN111340614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Medical Informatics (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Complex Calculations (AREA)

Abstract

本申请公开了一种基于联邦学习的样本采样方法、设备及可读存储介质,所述基于联邦学习的样本采样方法包括:与所述第一设备相关联的第二设备进行样本对齐,获得第一样本数据,基于预设采样比例和预设采样方式,获取所述第一样本数据对应的采样比例数,基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,构建目标算法模型。本申请解决了算法模型构建效率低的技术问题。

Description

基于联邦学习的样本采样方法、设备及可读存储介质
技术领域
本申请涉及金融科技(Fintech)的人工智能技术领域,尤其涉及一种基于联邦学习的样本采样方法、设备及可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,机器学习建模的应用也越来越广泛,机器学习建模中的联邦学习通常需要进行样本对齐以获取样本数据,而在进行样本对齐时,通常需要进行数据采样,目前在进行样本对齐时,使用的样本采样方法均为传统的数据采样方法,例如,随机上采样、随机下采样等,但是,传统的数据采样方法无法在纵向联邦中进行基于样本标签的采样,进而导致采样后获取的样本数据存在不均衡的问题,例如,在对银行信贷放款场景进行建模时,坏样本(违约样本)往往很少,进而导致传统的采样方法获取的坏样本往往也很少,进而导致在进行采样时不同的样本标签的样本采样数量不均衡,进而导致算法模型在构建时计算效率低、构建时间长,进而算法模型构建效率低,所以,现有技术中存在算法模型构建效率低的技术问题。
发明内容
本申请的主要目的在于提供一种基于联邦学习的样本采样方法、设备及可读存储介质,旨在解决现有技术中算法模型构建效率低的技术问题。
为实现上述目的,本申请实施例提供一种基于联邦学习的样本采样方法,所述基于联邦学习的样本采样方法应用于进行联邦学习的第一设备,所述基于联邦学习的样本采样方法包括:
与所述第一设备相关联的第二设备进行样本对齐,获得第一样本数据;
基于预设采样比例和预设采样方式,获取所述第一样本数据对应的采样比例数;
基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,构建目标算法模型。
可选地,所述目标算法模型包括GBDT(GradientBoostingDecisionTree,梯度提升迭代决策树)算法模型,所述中间参数包括一阶梯度集合和二阶梯变量,所述第二设备包括第二样本数据,
所述基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,构建目标算法模型的步骤包括:
获取目标损失函数,并对所述目标损失函数求导,获得一阶梯度集合和二阶梯度集合,其中,所述一阶梯度集合和所述二阶梯度集合均与所述样本标签相关联;
基于所述采样比例数,对所述一阶梯度集合和所述二阶梯度集合进行采样比例数处理,获得采样一阶梯度集合和采样二阶梯度集合;
基于所述采样一阶梯度集合和所述采样二阶梯度集合,构建所述GBDT算法模型。
可选地,所述基于所述采样比例数,对所述一阶梯度集合和所述二阶梯度集合进行采样比例数处理,获得采样一阶梯度集合和采样二阶梯度集合的步骤包括:
计算所述采样比例数和所述一阶梯度集合的乘积,获得所述采样一阶梯度集合;
计算所述采样比例数和所述二阶梯度集合的乘积,获得所述采样二阶梯度集合。
可选地,所述基于所述采样一阶梯度集合和所述采样二阶梯度集合,构建所述GBDT算法模型的步骤包括:
将所述采样一阶梯度集合和所述采样二阶梯度集合加密发送至所述第二设备;
接收所述第二设备反馈的第二***特征梯度直方图,其中,所述第二设备用于基于所述采样一阶梯度集合和所述采样二阶梯度集合统计所述第二样本数据对应的所述第二***特征梯度直方图;
基于所述采样一阶梯度集合和所述采样二阶梯度集合,统计所述第一样本数据对应的第一***特征梯度直方图;
基于所述第一***特征梯度直方图和所述第二***特征梯度直方图,通过预设增益公式计算最优***值;
基于所述最优***值,构建所述GBDT算法模型。
可选地,所述基于所述最优***值,构建所述GBDT算法模型的步骤包括:
基于所述最优***值,***所述第一样本数据和所述第二目标采样数据共同对应的待***节点,获得***结果。
判断所述待***节点是否可***,若所述待***节点不可***,则将所述待***节点作为所述GBDT算法模型的叶子节点,并基于所述***结果,获取所述叶子节点对应的样本权重;
若所述待***节点可***,则基于所述***结果,生成所述待***节点对应的孩子节点;
获取所述孩子节点对应的最优孩子节点***值,并对所述孩子节点执行***操作,直至待构建的所述GBDT算法模型的所有节点均不可再***,获得所述GBDT算法模型。
可选地,所述基于所述采样一阶梯度集合和所述采样二阶梯度集合,构建所述GBDT算法模型的步骤之后包括:
判断所述GBDT算法模型是否满足预设训练完成条件;
若所述GBDT算法模型满足预设训练完成条件,则将所述GBDT算法模型作为目标GBDT算法模型;
若所述GBDT算法模型不满足预设训练完成条件,则重新构建所述GBDT算法模型,直至所述GBDT算法模型满足预设训练完成条件,获得所述目标GBDT算法模型。
可选地,所述目标算法模型包括LR(Logistic Regression,逻辑回归模型)算法模型,所述中间参数包括梯度辅助变量,所述第二设备包括第二样本数据,
所述基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,构建目标算法模型的步骤包括:
获取所述第一样本数据对应的第一权值,并接收所述第二设备加密发送的第二权值,其中,所述第二设备包括获取模块,所述获取模块用于获取所述第二样本数据对应的所述第二权值;
基于所述第一权值和所述第二权值,通过预设中间参数公式计算获得所述梯度辅助变量,其中,所述梯度辅助变量与所述样本标签相关联;
基于所述采样比例数,对所述梯度辅助变量进行采样比例数处理,获得采样梯度辅助变量,并将所述采样梯度辅助变量反馈至所述第二设备,其中,所述第二设备包括计算模块,所述计算模块用于基于所述采样梯度辅助变量和所述第二样本数据计算第二采样梯度,并将所述第二采样梯度发送至预设纵向联邦服务器;
基于所述采样梯度辅助变量和所述第一样本数据,计算第一采样梯度,并将所述第一采样梯度发送至所述预设纵向联邦服务器,其中,所述预设纵向联邦服务器用于进行所述联邦学习以构建LR算法模型。
可选地,所述预设纵向联邦服务器用于优化所述第一采样梯度和所述第二采样梯度,并将优化好的所述第一采样梯度和所述第二采样梯度分别发送至所述第一设备和所述第二设备,以对所述第一设备和所述第二设备各自的本地模型进行更新,获得所述LR算法模型。
可选地,所述预设述采样方式包括下采样和上采样,
所述基于预设采样比例和预设采样方式,获取所述第一样本数据对应的采样比例数的步骤之后包括:
确定所述采样比例数的采样数值,并判断所述采样方式的类型;
当所述采样方式的类型为所述下采样时,若所述采样数值为0,则表示所述采样比例数对应的样本特征不参与所述联邦学习;
若所述采样数值为1,则表示所述样本特征参与所述联邦学习;
若所述采样数值大于0且小于1,则所述数值为所述样本特征的采样比例;
当所述采样方式为上采样时,所述采样数值大于或者等于1,且所述采样数值为所述样本特征的采样频率。
本申请还提供一种基于联邦学习的样本采样装置,所述基于联邦学习的样本采样装置应用于基于联邦学习的样本采样设备,所述基于联邦学习的样本采样装置包括:
样本对齐模块,用于所述与所述第一设备相关联的第二设备进行样本对齐,获得第一样本数据;
获取模块,用于所述基于预设采样比例和预设采样方式,获取所述第一样本数据对应的采样比例数;
构建模块,用于所述基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,构建目标算法模型。
可选地,所述构建模块包括:
第一获取子模块,用于所述获取目标损失函数,并对所述目标损失函数求导,获得一阶梯度集合和二阶梯度集合,其中,所述一阶梯度集合和所述二阶梯度集合均与所述样本标签相关联;
第一采样比例数处理子模块,用于所述基于所述采样比例数,对所述一阶梯度集合和所述二阶梯度集合进行采样比例数处理,获得采样一阶梯度集合和采样二阶梯度集合;
构建子模块,用于所述基于所述采样一阶梯度集合和所述采样二阶梯度集合,构建所述GBDT算法模型。
可选地,所述采样比例数处理子模块包括:
第一采样比例数处理单元,用于所述计算所述采样比例数和所述一阶梯度集合的乘积,获得所述采样一阶梯度集合;
第二采样比例数处理单元,用于所述计算所述采样比例数和所述二阶梯度集合的乘积,获得所述采样二阶梯度集合。
可选地,所述构建子模块包括:
发送单元,用于所述将所述采样一阶梯度集合和所述采样二阶梯度集合加密发送至所述第二设备;
接收单元,用于所述接收所述第二设备反馈的第二***特征梯度直方图,其中,所述第二设备用于基于所述采样一阶梯度集合和所述采样二阶梯度集合统计所述第二样本数据对应的所述第二***特征梯度直方图;
统计单元,用于所述基于所述采样一阶梯度集合和所述采样二阶梯度集合,统计所述第一样本数据对应的第一***特征梯度直方图;
计算单元,用于所述基于所述第一***特征梯度直方图和所述第二***特征梯度直方图,通过预设增益公式计算最优***值;
构建单元,用于所述基于所述最优***值,构建所述GBDT算法模型。
可选地,所述构建单元包括:
***子单元,用于所述基于所述最优***值,***所述第一样本数据和所述第二目标采样数据共同对应的待***节点,获得***结果;
判断子单元,用于所述判断所述待***节点是否可***,若所述待***节点不可***,则将所述待***节点作为所述GBDT算法模型的叶子节点,并基于所述***结果,获取所述叶子节点对应的样本权重;
生成子单元,用于所述若所述待***节点可***,则基于所述***结果,生成所述待***节点对应的孩子节点;
构建子单元,用于所述获取所述孩子节点对应的最优孩子节点***值,并对所述孩子节点执行***操作,直至待构建的所述GBDT算法模型的所有节点均不可再***,获得所述GBDT算法模型。
可选地,所述构建模块还包括:
第一判断子模块,用于所述判断所述GBDT算法模型是否满足预设训练完成条件;
训练完成判定模块,用于所述若所述GBDT算法模型满足预设训练完成条件,则将所述GBDT算法模型作为目标GBDT算法模型;
迭代训练模块,用于所述若所述GBDT算法模型不满足预设训练完成条件,则重新构建所述GBDT算法模型,直至所述GBDT算法模型满足预设训练完成条件,获得所述目标GBDT算法模型。
可选地,所述构建模块还包括:
第二获取子模块,用于所述获取所述第一样本数据对应的第一权值,并接收所述第二设备加密发送的第二权值,其中,所述第二设备包括获取模块,所述获取模块用于获取所述第二样本数据对应的所述第二权值;
第二计算子模块,用于所述基于所述第一权值和所述第二权值,通过预设中间参数公式计算获得所述梯度辅助变量,其中,所述梯度辅助变量与所述样本标签相关联;
第二采样比例数处理子模块,用于所述基于所述采样比例数,对所述梯度辅助变量进行采样比例数处理,获得采样梯度辅助变量,并将所述采样梯度辅助变量反馈至所述第二设备,其中,所述第二设备包括计算模块,所述计算模块用于基于所述采样梯度辅助变量和所述第二样本数据计算第二采样梯度,并将所述第二采样梯度发送至预设纵向联邦服务器;
发送子模块,用于所述基于所述采样梯度辅助变量和所述第一样本数据,计算第一采样梯度,并将所述第一采样梯度发送至所述预设纵向联邦服务器,其中,所述预设纵向联邦服务器用于进行所述联邦学习以构建LR算法模型。
可选地,所述基于联邦学习的样本采样装置还包括:
确定模块,用于所述确定所述采样比例数的采样数值,并判断所述采样方式的类型;
第一判断模块,用于所述当所述采样方式的类型为所述下采样时,若所述采样数值为0,则表示所述采样比例数对应的样本特征不参与所述联邦学习;
第二判断子模块,用于所述若所述采样数值为1,则表示所述样本特征参与所述联邦学习;
第三判断子模块,用于所述若所述采样数值大于0且小于1,则所述数值为所述样本特征的采样比例;
第四判断子模块,用于所述当所述采样方式为上采样时,所述采样数值大于或者等于1,且所述采样数值为所述样本特征的采样频率。
为实现上述目的,本申请还提供一种纵向联邦服务装置,所述纵向联邦服务装置应用于进行所述联邦学习的所述预设纵向联邦服务器,所述纵向联邦服务装置包括:
迭代更新模块,用于所述对所述第一采样梯度和所述第二采样梯度进行优化,并将优化好的所述第一采样梯度和优化好的所述第二采样梯度分别发送至所述第一设备和所述第二设备,以对所述第一设备和所述第二设备各自的本地模型进行更新,获得所述LR算法模型。
本申请还提供一种基于联邦学习的样本采样设备,所述基于联邦学习的样本采样设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述基于联邦学习的样本采样方法的程序,所述基于联邦学习的样本采样方法的程序被处理器执行时可实现如上述的基于联邦学习的样本采样方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现基于联邦学习的样本采样方法的程序,所述基于联邦学习的样本采样方法的程序被处理器执行时实现如上述的基于联邦学习的样本采样方法的步骤。
本申请通过与所述第一设备相关联的第二设备进行样本对齐,获得第一样本数据,进而基于预设采样比例和预设采样方式,获取所述第一样本数据对应的采样比例数,进而基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,构建目标算法模型。也即,本申请首先进行与所述第一设备相关联的第二设备的样本对齐,获得第一样本数据,进而基于预设采样比例和预设采样方式,进而进行所述第一样本数据对应的采样比例数的获取,进而基于所述采样比例数,进行对所述联邦学习的中间参数的采样比例数处理,以基于对所述联邦学习中的样本进行基于样本标签的采样处理,构建目标算法模型。也即,本申请在获取所述采样比例数之后,通过基于采样比例数对所述联邦学习的中间参数进行采样比例数处理,实现了对联邦学习的中间参数对应的样本进行基于样本标签的采样,进而避免了在进行联邦学习时,由于无法基于样本标签进行数据采样而导致样本采样不均衡的情况发生,进而通过对样本进行基于样本标签的均衡采样,缩短了构建算法模型时的构建时长,提高了算法模型的构建速度,进而提高了构建模型时的计算效率,所以,本申请解决了算法模型构建效率低的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请基于联邦学习的样本采样方法第一实施例的流程示意图;
图2为本申请基于联邦学习的样本采样方法第二实施例的流程示意图;
图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种基于联邦学习的样本采样方法,所述样本采样方法应用于进行联邦学习的第一设备,在本申请基于联邦学习的样本采样方法的第一实施例中,参照图1,所述基于联邦学习的样本采样方法包括:
步骤S10,与所述第一设备相关联的第二设备进行样本对齐,获得第一样本数据;
在本实施例中,需要说明的是,所述第一设备和所述第二设备可进行联邦学习,所述第一设备包括第一样本ID(Identity document,身份证标识号),所述第二设备包括第二样本ID。
与所述第一设备相关联的第二设备进行样本对齐,获得第一样本数据,具体地,与所述第二设备进行样本对齐,以将所述第一样本ID与所述第二样本ID进行交集处理,获得公共样本ID,进一步地,将所述公共样本ID与第一设备的本地样本数据进行交集处理,获得所述第一样本数据,其中,所述第二设备可通过将所述公共样本ID与所述第二设备的本地样本数据进行交集处理,获得第二样本数据。
步骤S20,基于预设采样比例和预设采样方式,获取所述第一样本数据对应的采样比例数;
在本实施例中,需要说明的是,所述预设采样方式包括随机上采样、随机下采样、分层上采样或者分层下采样等。
基于预设采样比例和预设采样方式,获取所述第一样本数据对应的采样比例数,具体地,例如,假设所述预设采样方式为上采样,所述采样比例为百分之150,则所述采样比例数为rate_1.5,假设所述预设采样方式为下采样,所述采样比例为百分之七十五,则所述采样比例数为rate_0.75。
步骤S30,基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,构建目标算法模型。
在本实施例中,需要说明的是,所述目标算法模型包括GBDT算法模型和LR算法模型等,所述中间参数包括GBDT算法模型中的一阶梯度集合和二阶梯度集合、LR算法模型的梯度辅助变量等,且所述中间参数与所述样本标签相关联,其中,所述样本标签可用于标识样本数据或者样本ID,例如,银行使用所述样本标签标识样本ID对应的客户为一级客户或者二级客户,所述联邦学习中的样本包括第一设备中的样本和第二设备中的样本,也即,所述联邦学习中的样本包括第一样本数据和第二样本数据。
基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,构建目标算法模型,具体地,基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,获得采样中间参数,进而将所述联邦学习中的样本的相关数据输入所述采样中间参数对应的计算公式,获得采样中间参数计算结果,进而基于所述采样中间参数计算结果和与所述第二设备的交互结果,构建所述目标算法模型。
其中,所述目标算法模型包括LR算法模型,所述中间参数包括梯度辅助变量,所述第二设备包括第二样本数据,
所述基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,构建目标算法模型的步骤包括:
步骤S31,获取所述第一样本数据对应的第一权值,并接收所述第二设备加密发送的第二权值,其中,所述第二设备包括获取模块,所述获取模块用于获取所述第二样本数据对应的所述第二权值;
在本实施例中,需要说明的是,所述第一权值为所述第一样本数据中的样本特征与第一样本权重之间的乘积,所述第二权值为所述第二样本数据中的样本特征与第二样本权重之间的乘积,其中,所述第一样本权重和所述第二样本权重由用户设置或者经上一次联邦学习获取,例如,假设所述第一样本权重为WB,第一样本特征为XB,则所述第一权值为WBXB,所述第二样本权重为WA,第一样本特征为XA,则所述第一权值为WAXA
获取所述第一样本数据对应的第一权值,并接收所述第二设备加密发送的第二权值,其中,所述第二设备包括获取模块,所述获取模块用于获取所述第二样本数据对应的所述第二权值,具体地,从本地数据库中提取所述第一样本特征和所述第一样本权重,进而计算所述第一样本特征和所述第一样本权重的乘积,获得第一权值,进一步地,接收所述第二设备加密发送的第二权值,其中,所述第二权值由所述第二设备进行加密,所述加密的方式包括同态加密等方式,所述第二权值由所述第二设备计算第二样本特征和所述第二样本权重的乘积获得,所述第二样本特征和所述第二样本权重可从所述第二设备的本地数据库中提取。
步骤S32,基于所述第一权值和所述第二权值,通过预设中间参数公式计算获得所述梯度辅助变量,其中,所述梯度辅助变量与所述样本标签相关联;
在本实施例中,需要说明的是,所述第一权值和第二权值均处于加密状态,且加密的方式包括同态加密,进而基于所述第一权值和所述第二权值计算而获得的所述梯度辅助变量也处于加密状态。
基于所述第一权值和所述第二权值,通过预设中间参数公式计算获得所述梯度辅助变量,其中,所述梯度辅助变量与所述样本标签相关联,具体地,将加密的所述第一权值和加密的所述第二样本权值相加,获得所有建模样本特征的总权值变量,其中所述所有建模样本包括第一样本特征和所述第二样本特征,进而将所述总权值变量代入所述预设中间参数公式,获得加密的所述梯度辅助变量,且所述梯度辅助变量与所述样本标签相关联,其中,所述预设中间参数公式如下所示,
Figure BDA0002394928720000121
其中,
Figure BDA0002394928720000122
为加密的所述梯度辅助变量,wTx为所述总权值变量,y为所述样本标签,y可取值1或者-1,例如,当y=1时,可表示客户为一级客户,当y=-1时,可表示客户为二级客户。
步骤S33,基于所述采样比例数,对所述梯度辅助变量进行采样比例数处理,获得采样梯度辅助变量,并将所述采样梯度辅助变量反馈至所述第二设备,其中,所述第二设备包括计算模块,所述计算模块用于基于所述采样梯度辅助变量和所述第二样本数据计算第二采样梯度,并将所述第二采样梯度发送至预设纵向联邦服务器;
在本实施例中,基于所述采样比例数,对所述梯度辅助变量进行采样比例数处理,获得采样梯度辅助变量,并将所述采样梯度辅助变量反馈至所述第二设备,具体地,基于所述采样比例数,对加密的所述梯度辅助变量进行采样比例数处理,以计算所述采样比例数和所述梯度辅助变量的乘积,获得加密的采样梯度辅助变量,进而将加密的所述采样梯度辅助变量发送至所述第二设备,其中,所述加密的方法包括同态加密,例如,假设所述采样比例数为rate_i,则加密的所述采样梯度辅助变量可通过如下公式计算获取,
Figure BDA0002394928720000123
其中,
Figure BDA0002394928720000124
为加密的所述采样梯度辅助变量,wTx为所述总权值变量,rate_i为所述采样比例数,y为所述样本标签,y可取值1或者-1,例如,当y=1时,可表示客户为一级客户,当y=-1时,可表示客户为二级客户。
进一步地,所述第二设备包括计算模块,所述计算模块用于基于加密的所述采样梯度辅助变量和所述第二样本数据计算加密的第二采样梯度,并将加密的所述第二采样梯度发送至预设纵向联邦服务器,其中,加密的所述第二采样梯度可由如下公式计算获取,
Figure BDA0002394928720000125
其中,gA为所述第二采样梯度,wTx为所述总权值变量,rate_i为所述采样比例数,y为所述样本标签,y可取值1或者-1,例如,当y=1时,可表示客户为一级客户,当y=-1时,可表示客户为二级客户,xA为所述第二设备的第二样本特征。
步骤S34,基于所述采样梯度辅助变量和所述第一样本数据,计算第一采样梯度,并将所述第一采样梯度发送至所述预设纵向联邦服务器,其中,所述预设纵向联邦服务器用于进行所述联邦学习以构建LR算法模型。
在本实施例中,基于所述采样梯度辅助变量和所述第一样本数据,计算第一采样梯度,并将所述第一采样梯度发送至所述预设纵向联邦服务器,具体地,计算所述采样梯度辅助变量和所述第一样本数据的乘积,获得第一采样梯度,其中,加密的所述第一采样梯度可由如下公式计算获得,
Figure BDA0002394928720000131
其中,gB为所述第一采样梯度,wTx为所述总权值变量,rate_i为所述采样比例数,y为所述样本标签,y可取值1或者-1,例如,当y=1时,可表示客户为一级客户,当y=-1时,可表示客户为二级客户,xB为所述第一设备的第一样本特征,其中,由于所述采样梯度辅助变量处于加密状态,且加密方法为同态加密,所以计算出的所述第一采样梯度也处于加密状态。
进一步地,将加密的所述第一采样梯度发送至所述预设纵向联邦服务器,进而所述预设纵向联邦服务器将对加密的所述第一采样梯度和所述第二设备发送的加密的第二采样梯度进行解密,获得所述第一采样梯度和所述第二采样梯度,且所述预设纵向联邦服务器包括梯度优化器,进而所述预设纵向联邦服务器将通过所述梯度优化器对所述第一采样梯度和所述第二采样梯度进行优化,进而将优后化的第一采样梯度和第二采样梯度反馈至相应的第一设备和第二设备,进一步地,所述第一设备和所述第二设备可基于优化后的第一采样梯度和优化后的第二采样梯度更新本地模型,以构建所述目标算法模型,也即,构建所述LR算法模型。
其中,所述预设述采样方式包括下采样和上采样,
所述基于预设采样比例和预设采样方式,获取所述第一样本数据对应的采样比例数的步骤之后包括:
步骤A10,确定所述采样比例数的采样数值,并判断所述采样方式的类型;
步骤A20,当所述采样方式的类型为所述下采样时,若所述采样数值为0,则表示所述采样比例数对应的样本特征不参与所述联邦学习;
在本实施例中,需要说明的是,所述下采样包括随机下采样和分层下采样等。
当所述采样方式的类型为所述下采样时,若所述采样数值为0,则表示所述采样比例数对应的样本特征不参与所述联邦学习,具体地,当所述采样方式的类型为所述下采样时,则所述采样比例数的数值的取值范围为大于或者等于0且小于或者等于1,若所述数值为0,则表明所述采样比例数对应的样本特征不参与所述联邦学习。
步骤A30,若所述采样数值为1,则表示所述样本特征参与所述联邦学习;
步骤A40,若所述采样数值大于0且小于1,则所述数值为所述样本特征的采样比例;
在本实施例中,若所述采样数值大于0且小于1,则所述数值为所述样本特征的采样比例,具体地,例如,假设所述采样比例数为rate_0.75,则所述采样数值为0.75,则表示在100个样本中取样75个。
步骤A50,当所述采样方式为上采样时,所述采样数值大于或者等于1,且所述采样数值为所述样本特征的采样频率。
在本实施例中,需要说明的是,所述上采样包括随机上采样和分层上采样,所述采样频率包括样本出现次数和样本出现概率等,例如,假设所述采样比例数为rate_1.5,则若所述采样频率为样本出现次数,则表示每样1000个样本,则所述采样比例数对应的样本出现15次,也即,采集到的1000个样本中包括15个所述采样比例数对应的样本,若所述采样频率为样本出现概率,则表示所述样本出现概率为百分之一百五十,也即,采集到的1000个样本中包括15个所述采样比例数对应的样本。
本实施例通过与所述第一设备相关联的第二设备进行样本对齐,获得第一样本数据,进而基于预设采样比例和预设采样方式,获取所述第一样本数据对应的采样比例数,进而基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,构建目标算法模型。也即,本实施例首先进行与所述第一设备相关联的第二设备的样本对齐,获得第一样本数据,进而基于预设采样比例和预设采样方式,进而进行所述第一样本数据对应的采样比例数的获取,进而基于所述采样比例数,进行对所述联邦学习的中间参数的采样比例数处理,以基于对所述联邦学习中的样本进行基于样本标签的采样处理,构建目标算法模型。也即,本实施例在获取所述采样比例数之后,通过基于采样比例数对所述联邦学习的中间参数进行采样比例数处理,实现了对联邦学习的中间参数对应的样本进行基于样本标签的采样,进而避免了在进行联邦学习时,由于无法基于样本标签进行数据采样而导致样本采样不均衡的情况发生,进而通过对样本进行基于样本标签的均衡采样,缩短了构建算法模型时的构建时长,提高了算法模型的构建速度,进而提高了构建模型时的计算效率,所以,本实施例解决了算法模型构建效率低的技术问题。
进一步地,参照图2,基于本申请中第一实施例,在基于联邦学习的样本采样方法的另一实施例中,所述目标算法模型包括GBDT算法模型,所述中间参数包括一阶梯度集合和二阶梯变量,所述第二设备包括第二样本数据,
所述基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,构建目标算法模型的步骤包括:
步骤B10,获取目标损失函数,并对所述目标损失函数求导,获得一阶梯度集合和二阶梯度集合,其中,所述一阶梯度集合和所述二阶梯度集合均与所述样本标签相关联;
在本实施例中,需要说明的是,所述目标损失函数是关于模型残差和样本标签的函数,且是用户或者建模人员预先选择好的,其中,所述模型残差可从上一次模型训练或者联邦学习的数据中获取,所述样本标签用于标识样本数据,每一样本数据对应的样本ID均对应以样本标签,例如,假设所述样本标签y可取值1或者-1,例如,当y=1时,可表示所述样本ID对应的客户为一级客户,当y=-1时,可表示所述样本ID对应的客户为二级客户。
获取目标损失函数,并对所述目标损失函数求导,获得一阶梯度集合和二阶梯度集合,其中,所述一阶梯度集合和所述二阶梯度集合均与所述样本标签相关联,具体地,获取目标损失函数,并对所述目标损失函数求取关于所述样本标签和所述模型残差的一阶偏导数和二阶偏导数,获得所述一阶梯度集合和二阶梯度集合,其中,由于所述目标函数是关于模型残差和样本标签的函数,所以所述一阶梯度集合和所述二阶梯度集合均与所述样本标签相关联。
步骤B20,基于所述采样比例数,对所述一阶梯度集合和所述二阶梯度集合进行采样比例数处理,获得采样一阶梯度集合和采样二阶梯度集合;
在本实施例中,基于所述采样比例数,对所述一阶梯度集合和所述二阶梯度集合进行采样比例数处理,获得采样一阶梯度集合和采样二阶梯度集合,并将所述采样一阶梯度集合和所述采样二阶梯度集合加密发送至所述第二设备,具体地,基于所述采样比例数,对所述一阶梯度集合和所述二阶梯度集合进行采样比例数处理,以计算所述采样比例数和所述一阶梯度之间的乘积,获得采样一阶梯度集合,计算所述采样比例数和所述二阶梯度之间的乘积,获得采样二阶梯度集合。
其中,所述基于所述采样比例数,对所述一阶梯度集合和所述二阶梯度集合进行采样比例数处理,获得采样一阶梯度集合和采样二阶梯度集合的步骤包括:
步骤B21,计算所述采样比例数和所述一阶梯度集合的乘积,获得所述采样一阶梯度集合;
在本实施例中,计算所述采样比例数和所述一阶梯度集合的乘积,获得所述采样一阶梯度集合,具体地,假设所述一阶梯度集合为gi,所述采样比例数为rate_i,则所述采样一阶梯度集合为gi*rate_i。
步骤B22,计算所述采样比例数和所述二阶梯度集合的乘积,获得所述采样二阶梯度集合。
在本实施例中,计算所述采样比例数和所述二阶梯度集合的乘积,获得所述采样二阶梯度集合,具体地,假设所述一阶梯度集合为hi,所述采样比例数为rate_i,则所述采样一阶梯度集合为hi*rate_i。
步骤B30,基于所述采样一阶梯度集合和所述采样二阶梯度集合,构建所述GBDT算法模型。
在本实施例中,基于所述采样一阶梯度集合和所述采样二阶梯度集合,构建所述GBDT算法模型,具体地,将所述采样一阶梯度集合和所述采样二阶梯度集合加密发送至所述第二设备,以通过与所述第二设备进行交互,计算所述GBDT算法模型的各待***节点对应的最优***值,进而基于各所述最优***值,构建所述GBDT算法模型。
其中,所述基于所述采样一阶梯度集合和所述采样二阶梯度集合,构建所述GBDT算法模型的步骤包括:
步骤B31,将所述采样一阶梯度集合和所述采样二阶梯度集合加密发送至所述第二设备;
在本实施例中,将所述采样一阶梯度集合和所述采样二阶梯度集合加密发送至所述第二设备,具体地,将所述采样一阶梯度集合和所述采样二阶梯度集合加密发送至所述第二设备,其中,所述加密的方式包括加法同态加密。
步骤B32,接收所述第二设备反馈的第二***特征梯度直方图,其中,所述第二设备用于基于所述采样一阶梯度集合和所述采样二阶梯度集合统计所述第二样本数据对应的所述第二***特征梯度直方图;
在本实施例中,需要说明的是,所述第一设备接收所述第二设备反馈的所述第二***特征梯度直方图处于加密状态,需要对加密状态的所述第二***特征梯度直方图进行解密,进而获得所述第二***特征梯度直方图,其中,所述第二设备可基于所述加密的所述采样一阶梯度集合、加密的所述采样二阶梯度集合统计计算所述第二设备中的第二特征分箱数据的各个样本分箱对应的加密的采样一阶梯度之和和加密的采样二阶梯度之和,其中,所述样本分箱中包括一个或者多个样本,进而基于每一样本分箱对应的样本数量、加密的采样一阶梯度之和和加密的采样二阶梯度之和绘制加密的所述第二特征***增益直方图,其中,所述加密所述一阶梯度和所述二阶梯度的加密方法为加法同态加密算法,所以,可基于加密的所述一阶梯度集合和加密的二阶梯度集合分别计算出加密的所述采样一阶梯度之和和加密的所述采样二阶梯度之和,所述第二样本数据包括多个样本特征分箱,所述多个样本分箱是通过对所述第二样本ID对应的第二设备中的本地样本特征进行特征分箱获得的,其中,所述样本分箱中包括多个样本特征数据,例如,假设所述第二样本特征为区间型特征,所述第二样本特征为XA,其中,XA大于或者等于1且小于或者等于10,则对所述第二样本特征进行特征分箱,获得第二样本特征分箱X1和X2,其中,X1大于或者等于1且小于或者等于5,X2大于或者等于5且小于或者等于10。
所述第二设备用于基于所述采样一阶梯度集合和所述采样二阶梯度集合统计所述第二样本数据对应的所述第二***特征梯度直方图,具体地,统计所述第二样本数据对应的每个样本特征分箱中的所有样本的样本数量、采样一阶梯度之和、采样二阶梯度之和,并基于所有所述样本特征分箱的样本数量、采样一阶梯度之和以及采样二阶梯度之和,绘制所述第二样本数据对应的第二***特征梯度直方图,所述第二***特征梯度直方图中包括所述第二样本数据的所有样本特征分箱的样本数量、采样一阶梯度之和、采样二阶梯度之和。
步骤B33,基于所述采样一阶梯度集合和所述采样二阶梯度集合,统计所述第一样本数据对应的第一***特征梯度直方图;
在本实施例中,需要说明的是,所述第一样本数据包括多个第一样本特征分箱。
基于所述采样一阶梯度集合和所述采样二阶梯度集合,统计所述第一样本数据对应的第一***特征梯度直方图,具体地,获取各所述第一样本特征分箱中的每一特征数据对应的样本标签,并基于所述样本标签,通过所述采样一阶梯度集合和所述采样二阶梯度集合,计算各所述第一样本特征分箱对应的采样一阶梯度之和以及采样二阶梯度之和,进一步地,统计各所述样本特征分箱对应的样本数据,基于各所述第一样本特征分箱中的所有特征数据的样本数量、采样一阶梯度之和、和采样二阶梯度之和,自动绘制所述第一样本数据对应的第一***特征梯度直方图,其中,所述第一***特征梯度直方图中包括所述第一样本数据的所有样本特征分箱的样本数量、采样一阶梯度之和、采样二阶梯度之和。
步骤B34,基于所述第一***特征梯度直方图和所述第二***特征梯度直方图,通过预设增益公式计算最优***值;
在本实施例中,需要说明的是,所述最优***值即为最大增益***值。
基于所述第一***特征梯度直方图和所述第二***特征梯度直方图,通过预设增益公式计算最优***值,具体地,确定待验证***值,例如,假设所述第一样本数据包括3个样本分箱,分别为X1、X2和X3,且1≤X1≤5,5<X1≤10,10<X1≤15,则所述待验证***值的取值可为1、5、10或者15,进一步地,基于所述待验证***值,分别将所述第一***特征梯度直方图和所述第二***特征梯度直方图中的所有样本特征分箱分为左孩子样本特征集和右孩子样本特征集,进而计算所述左孩子样本特征集对应的采样一阶梯度之和以及采样二阶梯度之和,所述右孩子样本特征集对应的采样一阶梯度之和以及采样二阶梯度之和,并代入如下公式计算增益,
Figure BDA0002394928720000191
其中,M为增益,GL为左孩子样本特征集的采样一阶梯度之和,HL为左孩子样本特征集的采样二阶梯度之和,GR为右孩子样本特征集的采样一阶梯度之和,HR为右孩子样本特征集的采样二阶梯度之和,λ为调整参数,用于调整所述增益的取值范围,G为所有样本特征对应的采样一阶梯度之和,H为所有样本特征对应的采样二阶梯度之和,进一步地,通过计算最大增益对应的分类值,也即,获得最优***值,其中,若所述最优***值属于第一***特征梯度直方图,则所述最优***值存储于第一设备中,若所述最优***值属于第二***特征梯度直方图,则所述最优***值存储于第二设备中。
步骤B35,基于所述最优***值,构建所述GBDT算法模型。
在本实施例中,基于所述最优***值,构建所述GBDT算法模型,基于所述最优***值,***所述第一样本数据和所述第二样本数据共同对应的待***节点,获得所述左孩子样本特征集对应的左孩子节点和所述右孩子样本特征集对应的右孩子节点,进而对所述右孩子节点和左孩子节点继续***,直至所述GBDT算法模型对应的未构建完成的模型树的所有节点均不可再***,获得GBDT算法树,也即,获得所述GBDT算法模型。
其中,所述基于所述最优***值,构建所述GBDT算法模型的步骤包括:
步骤B351,基于所述最优***值,***所述第一样本数据和所述第二目标采样数据共同对应的待***节点,获得***结果;
在本实施例中,需要说明的是,所述分类结果指的对所述待***节点中的样本数据进行***的结果,其中,所述样本数据包括所述第一样本数据和所述第二目标采样数据。
基于所述最优***值,***所述第一样本数据和所述第二目标采样数据共同对应的待***节点,获得***结果,具体地,基于所述最优***值,***所述第一样本数据和所述第二目标采样数据共同对应的待***节点,以获取所述待***节点对应的左孩子样本特征集和右孩子样本特征集,也即,获得***结果。
步骤B352,判断所述待***节点是否可***,若所述待***节点不可***,则将所述待***节点作为所述GBDT算法模型的叶子节点,并基于所述***结果,获取所述叶子节点对应的样本权重;
在本实施例中,判断所述待***节点是否可***,若所述待***节点不可***,则将所述待***节点作为所述GBDT算法模型的叶子节点,并基于所述***结果,获取所述叶子节点对应的样本权重,具体地,判断所述待***节点是否达到停止***条件,若达到,则所述待***节点不可***,则将所述待***节点作为所述GBDT算法模型的叶子节点,并基于所述***结果,生成左孩子样本特征集对应样本权重和右孩子样本特征集对应的样本权重,其中,所述样本权重存储于叶子节点中。
步骤B353,若所述待***节点可***,则基于所述***结果,生成所述待***节点对应的孩子节点;
在本实施例中,若所述待***节点可***,则基于所述***结果,生成所述待***节点对应的孩子节点,具体地,若所述待***节点可***,则基于所述***结果,则生成左孩子样本特征集对应的左孩子节点和右孩子样本特征集对应的右孩子节点。
步骤B354,获取所述孩子节点对应的最优孩子节点***值,并对所述孩子节点执行***操作,直至待构建的所述GBDT算法模型的所有节点均不可再***,获得所述GBDT算法模型。
在本实施例中,获取所述孩子节点对应的最优孩子节点***值,并对所述孩子节点执行***操作,直至待构建的所述GBDT算法模型的所有节点均不可再***,获得所述GBDT算法模型,具体地,获取所述孩子节点对应的最优孩子节点***值,并基于所述最优孩子节点***值,重新执行步骤B51至步骤B53,直至待构建的所述GBDT算法树的所有节点均不可再***,获得单颗所述GBDT算法树,也即,获得所述GBDT算法模型。
其中,所述基于所述采样一阶梯度集合和所述采样二阶梯度集合,构建所述GBDT算法模型的步骤之后包括:
步骤B40,判断所述GBDT算法模型是否满足预设训练完成条件;
在本实施例中,需要说明的是,所述预设训练完成条件包括最大树数量阀值和最大收敛误差阀值等;
步骤B50,若所述GBDT算法模型满足预设训练完成条件,则将所述GBDT算法模型作为目标GBDT算法模型;
在本实施例中,需要说明的是,所述目标GBDT算法模型指的是达到了所述预设训练完成条件的所述GBDT算法模型。
步骤B60,若所述GBDT算法模型不满足预设训练完成条件,则重新构建所述GBDT算法模型,直至所述GBDT算法模型满足预设训练完成条件,获得所述目标GBDT算法模型。
在本实施例中,若所述GBDT算法模型不满足预设训练完成条件,则重新构建所述GBDT算法模型,直至所述GBDT算法模型满足预设训练完成条件,获得所述目标GBDT算法模型,具体地,若所述GBDT算法模型不满足预设训练完成条件,则重复进行基于已经构建的所有所述GBDT算法模型的模型残差,进而执行步骤B10至B60的所述GBDT算法模型的构建过程,直至所述GBDT算法模型满足预设训练完成条件,也即,进行所述GBDT算法模型的迭代训练过程,直至所述GBDT算法模型满足预设训练完成条件,获得所述目标GBDT算法模型,其中,已经构建的所有所述GBDT算法模型指的是在所述目标GBDT算法模型的训练获取过程中,在进行下一次所述GBDT算法模型的构建计算之前的已经构建好的所有所述GBDT算法模型。
本实施例通过获取目标损失函数,并对所述目标损失函数求导,获得一阶梯度集合和二阶梯度集合,其中,所述一阶梯度集合和所述二阶梯度集合均与所述样本标签相关联,进而基于所述采样比例数,对所述一阶梯度集合和所述二阶梯度集合进行采样比例数处理,获得采样一阶梯度集合和采样二阶梯度集合,并将所述采样一阶梯度集合和所述采样二阶梯度集合加密发送至所述第二设备,进而接收所述第二设备反馈的第二***特征梯度直方图,其中,所述第二设备用于基于所述采样一阶梯度集合和所述采样二阶梯度集合统计所述第二样本数据对应的所述第二***特征梯度直方图,进而基于所述采样一阶梯度集合和所述采样二阶梯度集合,统计所述第一样本数据对应的第一***特征梯度直方图,进而基于所述第一***特征梯度直方图和所述第二***特征梯度直方图,通过预设增益公式计算最优***值,进而基于所述最优***值,构建所述GBDT算法模型。也即,本实施例通过对所述一阶梯度集合和所述二阶梯度集合进行采样比例数处理,实现了对样本数据进行基于样本标签的数据采样,代替了传统的直接对样本数据进行采样的方式,避免了样本标签的泄露且保证了数据采样的均衡性,避免了由于样本不均衡而导致算法模型构建时间过长和算法模型构建时计算效率低的情况发生,所以,本实施例解决了现有技术中存在算法模型构建效率低的技术问题。
参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图3所示,该基于联邦学习的样本采样设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该基于联邦学习的样本采样设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的基于联邦学习的样本采样设备结构并不构成对基于联邦学习的样本采样设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块以及基于联邦学习的样本采样方法程序。操作***是管理和控制基于联邦学习的样本采样设备硬件和软件资源的程序,支持基于联邦学习的样本采样方法程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与基于联邦学习的样本采样方法***中其它硬件和软件之间通信。
在图3所示的基于联邦学习的样本采样设备中,处理器1001用于执行存储器1005中存储的基于联邦学习的样本采样方法程序,实现上述任一项所述的基于联邦学习的样本采样方法的步骤。
本申请基于联邦学习的样本采样设备具体实施方式与上述基于联邦学习的样本采样方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种基于联邦学习的样本采样装置,所述基于联邦学习的样本采样装置包括:
样本对齐模块,用于所述与所述第一设备相关联的第二设备进行样本对齐,获得第一样本数据;
获取模块,用于所述基于预设采样比例和预设采样方式,获取所述第一样本数据对应的采样比例数;
构建模块,用于所述基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,构建目标算法模型。
可选地,所述构建模块包括:
第一获取子模块,用于所述获取目标损失函数,并对所述目标损失函数求导,获得一阶梯度集合和二阶梯度集合,其中,所述一阶梯度集合和所述二阶梯度集合均与所述样本标签相关联;
第一采样比例数处理子模块,用于所述基于所述采样比例数,对所述一阶梯度集合和所述二阶梯度集合进行采样比例数处理,获得采样一阶梯度集合和采样二阶梯度集合;
构建子模块,用于所述基于所述采样一阶梯度集合和所述采样二阶梯度集合,构建所述GBDT算法模型。
可选地,所述采样比例数处理子模块包括:
第一采样比例数处理单元,用于所述计算所述采样比例数和所述一阶梯度集合的乘积,获得所述采样一阶梯度集合;
第二采样比例数处理单元,用于所述计算所述采样比例数和所述二阶梯度集合的乘积,获得所述采样二阶梯度集合。
可选地,所述构建子模块包括:
发送单元,用于所述将所述采样一阶梯度集合和所述采样二阶梯度集合加密发送至所述第二设备;
接收单元,用于所述接收所述第二设备反馈的第二***特征梯度直方图,其中,所述第二设备用于基于所述采样一阶梯度集合和所述采样二阶梯度集合统计所述第二样本数据对应的所述第二***特征梯度直方图;
统计单元,用于所述基于所述采样一阶梯度集合和所述采样二阶梯度集合,统计所述第一样本数据对应的第一***特征梯度直方图;
计算单元,用于所述基于所述第一***特征梯度直方图和所述第二***特征梯度直方图,通过预设增益公式计算最优***值;
构建单元,用于所述基于所述最优***值,构建所述GBDT算法模型。
可选地,所述构建单元包括:
***子单元,用于所述基于所述最优***值,***所述第一样本数据和所述第二目标采样数据共同对应的待***节点,获得***结果;
判断子单元,用于所述判断所述待***节点是否可***,若所述待***节点不可***,则将所述待***节点作为所述GBDT算法模型的叶子节点,并基于所述***结果,获取所述叶子节点对应的样本权重;
生成子单元,用于所述若所述待***节点可***,则基于所述***结果,生成所述待***节点对应的孩子节点;
构建子单元,用于所述获取所述孩子节点对应的最优孩子节点***值,并对所述孩子节点执行***操作,直至待构建的所述GBDT算法模型的所有节点均不可再***,获得所述GBDT算法模型。
可选地,所述构建模块还包括:
第一判断子模块,用于所述判断所述GBDT算法模型是否满足预设训练完成条件;
训练完成判定模块,用于所述若所述GBDT算法模型满足预设训练完成条件,则将所述GBDT算法模型作为目标GBDT算法模型;
迭代训练模块,用于所述若所述GBDT算法模型不满足预设训练完成条件,则重新构建所述GBDT算法模型,直至所述GBDT算法模型满足预设训练完成条件,获得所述目标GBDT算法模型。
可选地,所述构建模块还包括:
第二获取子模块,用于所述获取所述第一样本数据对应的第一权值,并接收所述第二设备加密发送的第二权值,其中,所述第二设备包括获取模块,所述获取模块用于获取所述第二样本数据对应的所述第二权值;
第二计算子模块,用于所述基于所述第一权值和所述第二权值,通过预设中间参数公式计算获得所述梯度辅助变量,其中,所述梯度辅助变量与所述样本标签相关联;
第二采样比例数处理子模块,用于所述基于所述采样比例数,对所述梯度辅助变量进行采样比例数处理,获得采样梯度辅助变量,并将所述采样梯度辅助变量反馈至所述第二设备,其中,所述第二设备包括计算模块,所述计算模块用于基于所述采样梯度辅助变量和所述第二样本数据计算第二采样梯度,并将所述第二采样梯度发送至预设纵向联邦服务器;
发送子模块,用于所述基于所述采样梯度辅助变量和所述第一样本数据,计算第一采样梯度,并将所述第一采样梯度发送至所述预设纵向联邦服务器,其中,所述预设纵向联邦服务器用于进行所述联邦学习以构建LR算法模型。
可选地,所述基于联邦学习的样本采样装置还包括:
确定模块,用于所述确定所述采样比例数的采样数值,并判断所述采样方式的类型;
第一判断模块,用于所述当所述采样方式的类型为所述下采样时,若所述采样数值为0,则表示所述采样比例数对应的样本特征不参与所述联邦学习;
第二判断子模块,用于所述若所述采样数值为1,则表示所述样本特征参与所述联邦学习;
第三判断子模块,用于所述若所述采样数值大于0且小于1,则所述数值为所述样本特征的采样比例;
第四判断子模块,用于所述当所述采样方式为上采样时,所述采样数值大于或者等于1,且所述采样数值为所述样本特征的采样频率。
本申请基于联邦学习的样本采样装置的具体实施方式与上述基于联邦学习的样本采样方法各实施例基本相同,在此不再赘述。
为实现上述目的,本申请实施例还提供一种纵向联邦服务装置,所述纵向联邦服务装置应用于进行所述联邦学习的所述预设纵向联邦服务器,所述纵向联邦服务装置包括:
迭代更新模块,用于所述对所述第一采样梯度和所述第二采样梯度进行优化,并将优化好的所述第一采样梯度和优化好的所述第二采样梯度分别发送至所述第一设备和所述第二设备,以对所述第一设备和所述第二设备各自的本地模型进行更新,获得所述LR算法模型。
本申请纵向联邦服务装置的具体实施方式与上述基于联邦学习的样本采样方法各实施例中的内容基本相同,在此不再赘述。
本申请实施例提供了一种可读存储介质,所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的基于联邦学习的样本采样方法的步骤。
本申请介质具体实施方式与上述基于联邦学习的样本采样方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (11)

1.一种基于联邦学习的样本采样方法,其特征在于,所述样本采样方法应用于进行联邦学习的第一设备,所述基于联邦学习的样本采样方法包括:
与所述第一设备相关联的第二设备进行样本对齐,获得第一样本数据;
基于预设采样比例和预设采样方式,获取所述第一样本数据对应的采样比例数;
基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,获得采样中间参数,并基于所述采样中间参数,构建目标算法模型,其中,所述中间参数与所述样本标签相关联。
2.如权利要求1所述基于联邦学习的样本采样方法,其特征在于,所述目标算法模型包括GBDT算法模型,所述中间参数包括一阶梯度集合和二阶梯度集合,所述第二设备包括第二样本数据,
所述基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,获得采样中间参数,并基于所述采样中间参数,构建目标算法模型的步骤包括:
获取目标损失函数,并对所述目标损失函数求导,获得一阶梯度集合和二阶梯度集合,其中,所述一阶梯度集合和所述二阶梯度集合均与所述样本标签相关联;
基于所述采样比例数,对所述一阶梯度集合和所述二阶梯度集合进行采样比例数处理,获得采样一阶梯度集合和采样二阶梯度集合;
基于所述采样一阶梯度集合和所述采样二阶梯度集合,构建所述GBDT算法模型。
3.如权利要求2所述基于联邦学习的样本采样方法,其特征在于,所述基于所述采样比例数,对所述一阶梯度集合和所述二阶梯度集合进行采样比例数处理,获得采样一阶梯度集合和采样二阶梯度集合的步骤包括:
计算所述采样比例数和所述一阶梯度集合的乘积,获得所述采样一阶梯度集合;
计算所述采样比例数和所述二阶梯度集合的乘积,获得所述采样二阶梯度集合。
4.如权利要求2所述基于联邦学习的样本采样方法,其特征在于,所述基于所述采样一阶梯度集合和所述采样二阶梯度集合,构建所述GBDT算法模型的步骤包括:
将所述采样一阶梯度集合和所述采样二阶梯度集合加密发送至所述第二设备;
接收所述第二设备反馈的第二***特征梯度直方图,其中,所述第二设备用于基于所述采样一阶梯度集合和所述采样二阶梯度集合统计所述第二样本数据对应的所述第二***特征梯度直方图;
基于所述采样一阶梯度集合和所述采样二阶梯度集合,统计所述第一样本数据对应的第一***特征梯度直方图;
基于所述第一***特征梯度直方图和所述第二***特征梯度直方图,通过预设增益公式计算最优***值;
基于所述最优***值,构建所述GBDT算法模型。
5.如权利要求4所述基于联邦学习的样本采样方法,其特征在于,所述基于所述最优***值,构建所述GBDT算法模型的步骤包括:
基于所述最优***值,***所述第一样本数据和所述第二样本数据共同对应的待***节点,获得***结果;
判断所述待***节点是否可***,若所述待***节点不可***,则将所述待***节点作为所述GBDT算法模型的叶子节点,并基于所述***结果,获取所述叶子节点对应的样本权重;
若所述待***节点可***,则基于所述***结果,生成所述待***节点对应的孩子节点;
获取所述孩子节点对应的最优孩子节点***值,并对所述孩子节点执行***操作,直至待构建的所述GBDT算法模型的所有节点均不可再***,获得所述GBDT算法模型。
6.如权利要求2所述基于联邦学习的样本采样方法,其特征在于,所述基于所述采样一阶梯度集合和所述采样二阶梯度集合,构建所述GBDT算法模型的步骤之后包括:
判断所述GBDT算法模型是否满足预设训练完成条件;
若所述GBDT算法模型满足预设训练完成条件,则将所述GBDT算法模型作为目标GBDT算法模型;
若所述GBDT算法模型不满足预设训练完成条件,则重新构建所述GBDT算法模型,直至所述GBDT算法模型满足预设训练完成条件,获得所述目标GBDT算法模型。
7.如权利要求1所述基于联邦学习的样本采样方法,其特征在于,所述目标算法模型包括LR算法模型,所述中间参数包括梯度辅助变量,所述第二设备包括第二样本数据,
所述基于所述采样比例数,对所述联邦学习的中间参数进行采样比例数处理,以通过对所述中间参数进行基于样本标签的采样处理,获得采样中间参数,并基于所述采样中间参数,构建目标算法模型的步骤包括:
获取所述第一样本数据对应的第一权值,并接收所述第二设备加密发送的第二权值,其中,所述第二设备包括获取模块,所述获取模块用于获取所述第二样本数据对应的所述第二权值;
基于所述第一权值和所述第二权值,通过预设中间参数公式计算获得所述梯度辅助变量,其中,所述梯度辅助变量与所述样本标签相关联;
基于所述采样比例数,对所述梯度辅助变量进行采样比例数处理,获得采样梯度辅助变量,并将所述采样梯度辅助变量反馈至所述第二设备,其中,所述第二设备包括计算模块,所述计算模块用于基于所述采样梯度辅助变量和所述第二样本数据计算第二采样梯度,并将所述第二采样梯度发送至预设纵向联邦服务器;
基于所述采样梯度辅助变量和所述第一样本数据,计算第一采样梯度,并将所述第一采样梯度发送至所述预设纵向联邦服务器,其中,所述预设纵向联邦服务器用于进行所述联邦学习以构建LR算法模型。
8.如权利要求7所述基于联邦学习的样本采样方法,其特征在于,所述预设纵向联邦服务器用于优化所述第一采样梯度和所述第二采样梯度,并将优化好的所述第一采样梯度和所述第二采样梯度分别发送至所述第一设备和所述第二设备,以对所述第一设备和所述第二设备各自的本地模型进行更新,获得所述LR算法模型。
9.如权利要求1所述基于联邦学习的样本采样方法,其特征在于,所述预设述采样方式包括下采样和上采样,
所述基于预设采样比例和预设采样方式,获取所述第一样本数据对应的采样比例数的步骤之后包括:
确定所述采样比例数的采样数值,并判断所述采样方式的类型;
当所述采样方式的类型为所述下采样时,若所述采样数值为0,则表示所述采样比例数对应的样本特征不参与所述联邦学习;
若所述采样数值为1,则表示所述样本特征参与所述联邦学习;
若所述采样数值大于0且小于1,则所述数值为所述样本特征的采样比例;
当所述采样方式为上采样时,所述采样数值大于或者等于1,且所述采样数值为所述样本特征的采样频率。
10.一种基于联邦学习的样本采样设备,其特征在于,所述基于联邦学习的样本采样设备包括:存储器、处理器以及存储在存储器上的用于实现所述基于联邦学习的样本采样方法的程序,
所述存储器用于存储实现基于联邦学习的样本采样方法的程序;
所述处理器用于执行实现所述基于联邦学习的样本采样方法的程序,以实现如权利要求1至9中任一项所述基于联邦学习的样本采样方法的步骤。
11.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现基于联邦学习的样本采样方法的程序,所述实现基于联邦学习的样本采样方法的程序被处理器执行以实现如权利要求1至9中任一项所述基于联邦学习的样本采样方法的步骤。
CN202010123967.4A 2020-02-28 2020-02-28 基于联邦学习的样本采样方法、设备及可读存储介质 Active CN111340614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010123967.4A CN111340614B (zh) 2020-02-28 2020-02-28 基于联邦学习的样本采样方法、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010123967.4A CN111340614B (zh) 2020-02-28 2020-02-28 基于联邦学习的样本采样方法、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111340614A CN111340614A (zh) 2020-06-26
CN111340614B true CN111340614B (zh) 2021-05-18

Family

ID=71183800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010123967.4A Active CN111340614B (zh) 2020-02-28 2020-02-28 基于联邦学习的样本采样方法、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111340614B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861699B (zh) * 2020-07-02 2021-06-22 北京睿知图远科技有限公司 一种基于运营商数据的反欺诈指数生成方法
CN111898765A (zh) * 2020-07-29 2020-11-06 深圳前海微众银行股份有限公司 特征分箱方法、装置、设备及可读存储介质
CN111898768A (zh) * 2020-08-06 2020-11-06 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及介质
CN112288094B (zh) * 2020-10-09 2022-05-17 武汉大学 联邦网络表示学习方法及***
CN112329820B (zh) * 2020-10-21 2022-12-27 北京邮电大学 联邦学习下不均衡数据的采样方法与装置
CN112541592B (zh) * 2020-12-06 2022-05-17 支付宝(杭州)信息技术有限公司 基于差分隐私的联邦学习方法、装置及电子设备
CN113807380B (zh) * 2020-12-31 2023-09-01 京东科技信息技术有限公司 一种联邦学习模型的训练方法、装置及电子设备
CN112948463B (zh) * 2021-03-01 2022-10-14 创新奇智(重庆)科技有限公司 轧钢数据采样方法、装置、电子设备及存储介质
CN113807534B (zh) * 2021-03-08 2023-09-01 京东科技控股股份有限公司 联邦学习模型的模型参数训练方法、装置和电子设备
CN112949938B (zh) * 2021-03-29 2022-04-15 哈尔滨工业大学 改善训练样本类别不均衡的风电爬坡事件直接预报方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109492420A (zh) * 2018-12-28 2019-03-19 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、***及介质
CN110008696A (zh) * 2019-03-29 2019-07-12 武汉大学 一种面向深度联邦学习的用户数据重建攻击方法
CN110189192A (zh) * 2019-05-10 2019-08-30 深圳前海微众银行股份有限公司 一种信息推荐模型的生成方法及装置
CN110399742A (zh) * 2019-07-29 2019-11-01 深圳前海微众银行股份有限公司 一种联邦迁移学习模型的训练、预测方法及装置
CN110516161A (zh) * 2019-08-30 2019-11-29 深圳前海微众银行股份有限公司 一种推荐方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537273A (zh) * 2018-04-08 2018-09-14 焦点科技股份有限公司 一种针对不均衡样本执行自动化机器学习的方法
CN109034398B (zh) * 2018-08-10 2023-09-12 深圳前海微众银行股份有限公司 基于联邦训练的梯度提升树模型构建方法、装置及存储介质
CN109299728B (zh) * 2018-08-10 2023-06-27 深圳前海微众银行股份有限公司 基于构建梯度树模型的样本联合预测方法、***及介质
US11244242B2 (en) * 2018-09-07 2022-02-08 Intel Corporation Technologies for distributing gradient descent computation in a heterogeneous multi-access edge computing (MEC) networks
CN109492193B (zh) * 2018-12-28 2020-11-27 同济大学 基于深度机器学习模型的异常网络数据生成与预测方法
CN110378749B (zh) * 2019-07-25 2023-09-26 深圳前海微众银行股份有限公司 客户端相似性的评估方法、装置、终端设备及存储介质
CN110543907A (zh) * 2019-08-29 2019-12-06 交控科技股份有限公司 一种基于微机监测功率曲线的故障分类方法
CN110728375B (zh) * 2019-10-16 2021-03-19 支付宝(杭州)信息技术有限公司 多个计算单元联合训练逻辑回归模型的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109492420A (zh) * 2018-12-28 2019-03-19 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、***及介质
CN110008696A (zh) * 2019-03-29 2019-07-12 武汉大学 一种面向深度联邦学习的用户数据重建攻击方法
CN110189192A (zh) * 2019-05-10 2019-08-30 深圳前海微众银行股份有限公司 一种信息推荐模型的生成方法及装置
CN110399742A (zh) * 2019-07-29 2019-11-01 深圳前海微众银行股份有限公司 一种联邦迁移学习模型的训练、预测方法及装置
CN110516161A (zh) * 2019-08-30 2019-11-29 深圳前海微众银行股份有限公司 一种推荐方法及装置

Also Published As

Publication number Publication date
CN111340614A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111340614B (zh) 基于联邦学习的样本采样方法、设备及可读存储介质
US10891161B2 (en) Method and device for virtual resource allocation, modeling, and data prediction
US11651247B2 (en) Method for verifying lack of bias of deep learning AI systems
US9449283B1 (en) Selecting a training strategy for training a machine learning model
US10346782B2 (en) Adaptive augmented decision engine
US8600870B2 (en) Distributed scoring of data transactions
CN113095512A (zh) 联邦学习建模优化方法、设备、介质及计算机程序产品
CN112862298A (zh) 一种针对用户画像的信用评估方法
CN110533419B (zh) 基于区块链的风控模型的共享方法、装置及服务器
CN113449753B (zh) 业务风险预测方法、装置和***
US8204840B2 (en) Global conduct score and attribute data utilization pertaining to commercial transactions and page views
CN115130536A (zh) 特征提取模型的训练方法、数据处理方法、装置及设备
US20240054406A1 (en) Automated machine learning pipeline generation
CN117422553A (zh) 区块链网络的交易处理方法、装置、设备、介质和产品
CN112598311A (zh) 一种风险操作识别模型构建方法、风险操作识别方法
CN112541556A (zh) 模型构建优化方法、设备、介质及计算机程序产品
CN116860470A (zh) 数据传输方法、装置、计算机设备和存储介质
CN116029390A (zh) 一种模型聚合训练方法及装置
CN110866605A (zh) 数据模型训练方法、装置、电子设备及可读介质
US20210166318A1 (en) Systems and methods for client profile-based sales decisions
Sokolov et al. A new approach to reduce time consumption of data quality assessment in the field of energy consumption
CN114510518B (zh) 一种海量结构化数据的自适应聚合方法、***及电子设备
CN117933436A (zh) 异常检测方法、装置、设备及计算机可读存储介质
CN116662922A (zh) 对象类型识别方法以及相关设备
CN118227345A (zh) 数据处理方法和装置、消息生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant