CN111898765A - 特征分箱方法、装置、设备及可读存储介质 - Google Patents

特征分箱方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111898765A
CN111898765A CN202010747783.5A CN202010747783A CN111898765A CN 111898765 A CN111898765 A CN 111898765A CN 202010747783 A CN202010747783 A CN 202010747783A CN 111898765 A CN111898765 A CN 111898765A
Authority
CN
China
Prior art keywords
sample
global
binning
feature
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010747783.5A
Other languages
English (en)
Inventor
谭明超
马国强
范涛
陈天健
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010747783.5A priority Critical patent/CN111898765A/zh
Publication of CN111898765A publication Critical patent/CN111898765A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种特征分箱方法、装置、设备及可读存储介质,所述特征分箱方法包括:接收各第二设备发送的样本特征极值和样本数量,并基于各样本特征极值和各样本数量,确定全局样本特征极值和全局样本数量,进而将全局样本特征极值发送至各第二设备,以供各第二设备基于全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量,进而接收各第二设备发送的第一样本数量和第二样本数量,并基于各第一样本数量、各第二样本数量和全局样本数量,确定分位点分布位置,进而基于分位点分布位置,确定目标分位点。本申请解决了联合多方进行特征分箱的方式会暴露各自的数据,无法做到隐私保护的技术问题。

Description

特征分箱方法、装置、设备及可读存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种特征分箱方法、装置、设备及可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
通常,在很多领域需要对特征进行分箱,例如,在机器学习中,特征分箱并基于分箱结果求变量的显著性等过程往往是特征工程的重要方法,比如,要考察特征与标签之间的相关程度时,iv(Information Value,信息价值)值往往是变量显著性的重要指标,可运用于特征选择之中。
目前,当待分箱特征的特征数据分布存放在多方,需要联合多方进行特征分箱时,各方采用互相发送特征数据的方式来进行联合特征分箱,但是,这种方式会互相暴露各自的数据,若需要对各方的数据进行隐私保护,则无法联合各方进行特征分箱。
发明内容
本申请的主要目的在于提供一种特征分箱方法、装置、设备及可读存储介质,旨在解决联合多方进行特征分箱的方式会暴露各自的数据,无法做到隐私保护的技术问题。
为实现上述目的,本申请提供一种特征分箱方法,所述特征分箱方法应用于第一设备,所述特征分箱方法包括:
接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;
基于所述分位点分布位置,确定目标分位点。
可选地,所述基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置的步骤包括:
分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;
基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;
基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。
可选地,所述基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置的步骤包括:
基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例;
将所述全局目标样本分布比例与所述预设样本分箱比例进行比对;
若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的右侧位置;
若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置。
可选地,所述基于所述分位点分布位置,确定目标分位点的步骤包括:
基于所述分位点分布位置,确定第二全局样本特征极值;
基于所述第二全局样本特征极值,通过与各所述第二设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点。
可选地,所述基于所述分位点分布位置,确定第二全局样本特征极值的步骤包括:
将所述分位点分布位置发送至各所述第二设备,以供各所述第二设备基于所述分位点分布位置,对所述样本特征极值进行更新,获得第二样本特征极值;
接收各所述第二设备发送的第二样本特征极值,并对各所述第二样本特征极值进行聚合,获得第二全局样本特征极值。
为实现上述目的,本申请还提供一种特征分箱方法,所述特征分箱方法应用于第二设备,所述特征分箱方法包括:
获取待分箱样本集对应的样本特征极值和对应的样本数量,并将所述样本特征极值和样本数量发送至第一设备,以供所述第一设备确定全局样本特征极值和全局样本数量;
接收所述第一设备发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;
将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点。
可选地,所述全局样本特征极值包括全局最小值和全局最大值,
所述基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量的步骤包括:
基于所述全局最小值、全局最大值和所述预设样本分箱比例,计算目标特征值;
基于所述目标特征值,对所述待分箱样本集进行特征分箱,获得第一初始分箱和第二初始分箱;
统计所述第一初始分箱对应的样本数量,获得第一样本数量,并统计所述第二初始分箱对应的样本数量,获得第二样本数量。
本申请还提供一种特征分箱装置,所述特征分箱装置为虚拟装置,且所述特征分箱装置应用于第一设备,所述特征分箱装置包括:
第一确定模块,用于接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
发送模块,用于将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
第二确定模块,用于接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;
第三确定模块,用于基于所述分位点分布位置,确定目标分位点。
可选地,所述第二确定模块包括:
聚合单元,用于分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;
计算单元,用于基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;
确定单元,用于基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。
可选地,所述确定单元包括:
计算子单元,用于基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例;
比对子单元,用于将所述全局目标样本分布比例与所述预设样本分箱比例进行比对;
第一判定子单元,用于若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的右侧位置;
第二判定子单元,用于若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置。
可选地,所述第三确定模块包括:
更新单元,用于基于所述分位点分布位置,确定第二全局样本特征极值;
迭代计算单元,用于基于所述第二全局样本特征极值,通过与各所述第二设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点。
可选地,所述更新单元包括:
发送子单元,用于将所述分位点分布位置发送至各所述第二设备,以供各所述第二设备基于所述分位点分布位置,对所述样本特征极值进行更新,获得第二样本特征极值;
聚合子单元,用于接收各所述第二设备发送的第二样本特征极值,并对各所述第二样本特征极值进行聚合,获得第二全局样本特征极值。
为实现上述目的,本申请还提供一种特征分箱装置,所述特征分箱装置为虚拟装置,且所述特征分箱装置应用于第二设备,所述特征分箱装置包括:
获取模块,用于获取待分箱样本集对应的样本特征极值和对应的样本数量,并将所述样本特征极值和样本数量发送至第一设备,以供所述第一设备确定全局样本特征极值和全局样本数量;
统计模块,用于接收所述第一设备发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;
发送模块,用于将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点。
可选地,所述统计模块包括:
计算单元,用于基于所述全局最小值、全局最大值和所述预设样本分箱比例,计算目标特征值;
特征分箱单元,用于基于所述目标特征值,对所述待分箱样本集进行特征分箱,获得第一初始分箱和第二初始分箱;
统计单元,用于统计所述第一初始分箱对应的样本数量,获得第一样本数量,并统计所述第二初始分箱对应的样本数量,获得第二样本数量。
本申请还提供一种特征分箱设备,所述特征分箱设备为实体设备,所述特征分箱设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述特征分箱方法的程序,所述特征分箱方法的程序被处理器执行时可实现如上述的特征分箱方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现特征分箱方法的程序,所述特征分箱方法的程序被处理器执行时实现如上述的特征分箱方法的步骤。
本申请提供了一种特征分箱方法、装置、设备及可读存储介质,相比于现有技术采用的互相发送特征数据的方式来进行联合特征分箱的技术手段,本申请在接收各第二设备发送的样本特征极值和样本数量之后,统计全局样本特征极值和全局样本数量,进而将全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,统计属于预设样本分箱比例对应的目标特征点两侧的第一样本数量和第二样本数量,进而第一设备在接收各第一样本数量和各第二样本数据之后,即可基于全局样本数量、各第一样本数量和各第二样本数量,即可确定目标分位点在全局中的分位点分布位置,进而基于分位点分布位置,即可确定目标分位点,其中,第一设备在与各第二设备进行交互时,发送的仅仅为样本的数量和样本的特征极值,而不是发送特征数据本身,进而各第二设备不会互相暴露各自的特征数据,进而克服了现有技术中各方在进行联合特征分箱,会互相暴露各自的隐私数据的技术缺陷,进而在联合多方进行特征分箱的同时,实现了对各方的隐私的保护。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请特征分箱方法第一实施例的流程示意图;
图2为本申请特征分箱方法第二实施例的流程示意图;
图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种特征分箱方法,在本申请特征分箱方法的第一实施例中,参照图1,所述特征分箱方法包括:
步骤S10,接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
在本实施例中,需要说明的是,所述特征分箱方法应用于联邦学习,所述联邦学习包括横向联邦学习和纵向联邦学习,所述第一设备为联邦学习的协调方,所述第二设备为联邦学习的参与方,所述样本特征极值包括样本特征最小值和样本特征最大值,所述样本特征最小值为单个参与方中各样本对应的特征值中的最小特征值,所述样本特征最大值为单个参与方中各样本对应的特征值中的最大特征值,所述样本数量为单个参与方中样本的数量,所述全局样本特征极值包括全局最小值和全局最大值,所述全局最小值为所有参与方中各样本对应的特征值中的最小特征值,所述全局最大值未所有参与方中各样本对应的特征值中的最大特征值,所述全局样本数量为所有参与方中样本的总数,例如,假设参与方A中具有100个样本,样本特征最大值为10,样本特征最小值为1,参与方B中具有50个样本,样本特征最大值为20,样本特征最小值为2,则所述全局最大值为20,所述全局最小值为1,全局样本数量为150。
接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量,具体地,接收各第二设备发送的样本特征最小值、样本特征最大值和样本数量,并对各所述样本特征最小值和各所述样本特征最大值进行聚合,以对各所述样本特征最小值和各所述样本特征最大值进行排序,以在各所述样本特征最小值和各所述样本特征最大值中选取全局最小值和全局最大值,并对各所述样本数量进行聚合,以计算各所述样本数量之和,获得所述全局样本数量。
步骤S20,将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
在本实施例中,需要说明的是,所述预设样本分箱比例为预先设置好的特征分箱比例,用于对参与方的待分箱样本进行样本分箱,例如,假设参与方A的特征值的取值范围为0至100,所述预设样本分箱比例为50%,则特征值取值范围为0至50的各样本为一个分箱,特征值取值范围为50至100的各样本为另一个分箱。
将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量,具体地,将所述全局最大值和所述全局最小值均发送至各所述第二设备,以供所述第二设备计算所述全局最大值和所述全局最小值之和,获得全局特征值极值和,进而计算所述全局特征极值和与所述预设样本分箱比例的乘积,获得目标特征值,进而基于所述目标特征值,统计参与方中待分箱样本集中小于所述目标特征值的特征值对应的样本的数量,获得第一样本数量,并统计参与方中待分箱样本集中大于所述目标特征值的特征值对应的样本的数量,获得第二样本数量,其中,所述第一样本数量为单个参数方中的特征值小于所述目标特征值的样本的数量,所述第二样本数量为单个参数方中的特征值大于所述目标特征值的样本的数量。
步骤S30,接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;
在本实施例中,需要说明的是,所述分位点分布位置为目标分位点与所述预设样本分箱比例在各参与方中对应的目标特征点的相对位置,其中,所述目标分位点为进行特征分箱时需要进行确定的分位点,所述目标特征点为基于所述样本特征极值和所述预设样本分箱比例确定的特征点,例如,假设样本特征最大值为100,样本特征最小值为40,预设样本分箱比例为50%,则所述目标特征点对应的特征值为(100+40)*50%=70,也即,特征值70对应的特征点即为目标特征点。
接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置,具体地,接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并对各所述第一样本数量进行聚合,以计算各所述第一样本数量之和,获得第一样本总数,对各所述第二样本数量进行聚合,以计算各所述第二样本数量之和,获得第二样本总数,进而基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,基于所述第二样本总数和殴全局样本数量,计算第二全局样本比例,进而基于所述第一全局样本比例和所述第二全局样本比例,判定所述分位点分布位置。
其中,所述基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置的步骤包括:
步骤S31,分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;
在本实施例中,分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数,具体地,计算各所述第一样本数量之和,获得第一样本总数,并计算各所述第二样本数量之和,获得第二样本总数。
步骤S32,基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;
在本实施例中,基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例,具体地,将所述第一样本总数除以所述全局样本数量,获得第一全局样本比例,并将所述第二样本总数除以所述全局样本数量,获得第二全局样本比例。
步骤S33,基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。
在本实施例中,基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置,具体地,计算所述第一全局样本比例和所述第二全局样本比例之间的比值,获得全局目标样本分布比例,并基于所述全局目标样本分布比例和所述预设样本分箱比例,判断所述分位点分布位置。
其中,所述基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置的步骤包括:
步骤S331,基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例;
在本实施例中,基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例,具体地,计算所述第一全局样本比例与所述第二全局样本比例的比值,获得所述全局目标样本分布比例。
步骤S332,将所述全局目标样本分布比例与所述预设样本分箱比例进行比对;
步骤S333,若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的右侧位置;
在本实施例中,若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的左侧位置,具体地,若所述全局目标样本分布比例小于所述预设样本分箱比例,则所述目标分位点对应的特征值大于所述预设样本分箱比例对应的目标特征点的特征值,进而所述目标分位点在所述目标特征点的右侧,进而所述分位点分布位置为所述目标特征点的右侧位置。
步骤S334,若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置。
在本实施例中,若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置,具体地,所述全局目标样本分布比例大于所述预设样本分箱比例,则所述目标分位点对应的特征值小于所述预设样本分箱比例对应的目标特征点的特征值,进而所述目标分位点在所述目标特征点的左侧,进而所述分位点分布位置为所述目标特征点的左侧位置。
另外地,若所述全局目标样本分布比例等于所述预设样本分箱比例,则将所述目标特征点作为所述目标分位点。
步骤S40,基于所述分位点分布位置,确定目标分位点。
在本实施例中,基于所述分位点分布位置,确定目标分位点,具体地,获取所述分位点分布位置对应的全局目标样本分布比例,并计算所述全局目标样本分布比例与预设样本分箱比例之间的比例误差值,进而将所述比例误差值与预设比例误差阀值进行比对,若所述比例误差值小于所述预设比例误差阀值,则将所述预设样本分箱比例对应的目标特征点作为所述目标分位点,若所述比例误差值大于或者等于所述预设比例误差阀值,则基于所述分位点分布位置,更新所述全局样本特征极值,并基于更新后的全局样本特征极值,重新计算比例误差值,直至所述比例误差值小于所述预设比例误差阀值,获得所述目标分位点。
其中,所述基于所述分位点分布位置,确定目标分位点的步骤包括:
步骤S41,基于所述分位点分布位置,确定第二全局样本特征极值;
在本实施例中,基于所述分位点分布位置,确定第二全局样本特征极值,具体地,将所述分位点分布位置发生至各所述第二设备,以供所述第二设备基于所述分位点分布位置,判断所述目标分位点是在所述目标特征点的左侧位置还是在所述目标特征点的右侧位置,若所述目标分位点是在所述目标特征点的左侧位置,则将所述目标特征点对应的特征值作为本地的第二样本特征最大值,将所述样本特征最小值为第二样本特征最小值,若所述目标分位点是在所述目标特征点的右侧位置,则将所述目标特征点对应的特征值作为本地的第二样本特征最小值,将所述样本特征最大值为第二样本特征最大值,进而将所述第二样本特征最大值、所述第二样本特征最小值发送至所述第一设备,进而所述第一设备在接收各所述第二设备发送的所述第二样本特征最大值、所述第二样本特征最小值和所述参与方样本数量之后,对各所述第二样本特征最大值和各所述第二样本特征最小值进行聚合,确定第二全局最小值和第二全局最大值,也即获得所述第二全局样本特征极值。
其中,所述基于所述分位点分布位置,确定第二全局样本特征极值的步骤包括:
步骤S411,将所述分位点分布位置发送至各所述第二设备,以供各所述第二设备基于所述分位点分布位置,对所述样本特征极值进行更新,获得第二样本特征极值;
在本实施例中,将所述分位点分布位置发送至各所述第二设备,以供各所述第二设备基于所述分位点分布位置,对所述样本特征极值进行更新,获得第二样本特征极值,具体地,将所述分位点分布位置发生至各所述第二设备,以供每一所述第二设备基于所述分位点分布位置,判断所述目标分位点是在所述目标特征点的左侧位置还是所述目标特征点的右侧位置,若所述目标分位点是在所述目标特征点的左侧位置,则将所述目标特征点对应的特征值作为本地的第二样本特征最大值,将所述样本特征最小值为第二样本特征最小值,若所述目标分位点是在所述目标特征点的右侧位置,则将所述目标特征点对应的特征值作为本地的第二样本特征最小值,将所述样本特征最大值为第二样本特征最大值。
步骤S412,接收各所述第二设备发送的第二样本特征极值,并对各所述第二样本特征极值进行聚合,获得第二全局样本特征极值。
在本实施例中,需要说明的是,所述第二样本特征极值包括第二全局最大值和第二全局最小值。
接收各所述第二设备发送的第二样本特征极值,并对各所述第二样本特征极值进行聚合,获得第二全局样本特征极值,具体地,接收各所述第二设备发送的第二样本特征最大值和第二样本特征最小值,并对各所述第二样本特征最大值和各所述第二样本特征最小值进行聚合,以在各所述第二样本特征最大值和各所述样本特征最小值中选取最大特征值作为第二全局最大值,以及在各所述第二样本特征最大值和各所述样本特征最小值中选取最小特征值作为第二全局最小值。
步骤S42,基于所述第二全局样本特征极值,通过与各所述第二设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点。
在本实施例中,需要说明的是,所述预设迭代计算接收条件包括当前全局样本比例与预设样本分箱比例之间的比例误差值小于预设比例误差阀值。
基于所述第二全局样本特征极值,通过与各所述第二设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点,具体地,将所述第二全局最大值和所述第二全局最小值发送至各所述第二设备,以供所述第二设备基于所述第二全局最小值、所述第二全局最大值以及预设第二样本分箱比例,确定第二目标特征值,进而基于所述第二目标特征值,统计特征值小于所述第二目标特征值的样本的数量,获得第三样本数量,并基于所述第二目标特征值,统计特征值大于所述第二目标特征值的样本的数量,获得第四样本数量,进而将所述第三样本数量和所述第四样本数量发送至所述第一设备,进而第一设备接收各所述第三样本数量和各所述第四样本数量,进而对各所述第三样本数量进行聚合,以计算各所述第三样本数量之和,获得第三样本总数,并对各所述第四样本数量进行聚合,以计算各所述第四样本数量之和,获得第四样本总数,进而计算所述第三样本总数与全局样本数量的比值,获得第三全局样本比例,并计算所述第四样本总数与全局样本数量的比值,获得第四全局样本比例,进而基于所述第三样本比例和所述第四样本比例,计算第二全局目标样本分布比例,并计算所述第二全局目标样本分布比例与预设第二样本分箱比例之间的第二比例误差值,并判断所述第二比例误差值是否小于预设比例误差阀值,若所述第二比例误差值小于预设比例误差阀值,则将所述预设第二样本分箱比例对应的第二目标特征点作为所述目标分位点,若所述第二比例误差值不小于预设比例误差阀值,则基于所述第二全局目标样本分布比例,重新确定分位点分布位置,以重新计算第二比例误差值,直至所述第二比例误差值小于预设比例误差阀值,获得所述目标分位点。
本实施例提供了一种特征分箱方法,相比于现有技术采用的互相发送特征数据的方式来进行联合特征分箱的技术手段,本实施例在接收各第二设备发送的样本特征极值和样本数量之后,统计全局样本特征极值和全局样本数量,进而将全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,统计属于预设样本分箱比例对应的目标特征点两侧的第一样本数量和第二样本数量,进而第一设备在接收各第一样本数量和各第二样本数据之后,即可基于全局样本数量、各第一样本数量和各第二样本数量,即可确定目标分位点在全局中的分位点分布位置,进而基于分位点分布位置,即可确定目标分位点,其中,第一设备在与各第二设备进行交互时,发送的仅仅为样本的数量和样本的特征极值,而不是发送特征数据本身,进而各第二设备不会互相暴露各自的特征数据,进而克服了现有技术中各方在进行联合特征分箱,会互相暴露各自的隐私数据的技术缺陷,进而在联合多方进行特征分箱的同时,实现了对各方的隐私的保护。
进一步地,参照图2,基于本申请中第一实施例,在本申请的另一实施例中,所述特征分箱方法应用于第二设备,所述特征分箱方法包括:
步骤A10,获取待分箱样本集对应的样本特征极值和对应的样本数量,并将所述样本特征极值和样本数量发送至第一设备,以供所述第一设备确定全局样本特征极值和全局样本数量;
在本实施例中,需要说明的是,所述样本数量为所述待分箱样本集中样本的数量,所述样本特征极值包括样本特征最大值和样本特征最小值,所述样本特征最小值为所述待分箱样本集中各样本对应的特征值中的最小特征值,所述样本特征最大值为所述待分箱样本集中各样本对应的特征值中的最大特征值,所述全局样本特征极值包括全局最小值和全局最大值,所述全局最小值为所有参与方的待分箱样本集中各样本对应的特征值中的最小特征值,所述全局最大值未所有参与方的待分箱样本集中各样本对应的特征值中的最大特征值,所述全局样本数量为所有参与方的待分箱样本集的样本的总数,获取待分箱样本集对应的样本特征极值和对应的样本数量,并将所述样本特征极值和样本数量发送至第一设备,以供所述第一设备确定全局样本特征极值和全局样本数量,具体地,获取待分箱样本集对应的样本特征最大值、对应的样本特征最小值以及对应的样本数量,并将所述样本特征最大值、所述样本特征最小值和所述样本数量发送至所述第一设备,以供所述第一设备接收各所述第二设备发送的所述样本特征最大值、所述样本特征最小值和所述样本数量,并在各所述样本特征最大值和各所述样本特征最小值中选取最大的特征值作为全局最大值,在各所述样本特征最大值和各所述样本特征最小值中选取最小的特征值作为全局最小值,并计算各所述样本数量之和,获得全局样本数量。
步骤A20,接收所述第一设备发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;
在本实施例中,接收所述第一设备发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量,具体地,接收所述第一设备发送的所述全局最大值和全局最小值,并基于所述全局最大值和全局最小值以及预设样本分箱比例,计算目标特征值,其中,可选地,所述目标特征值可设置为所述预设样本分箱比例与全局极值和的乘积,其中,所述全局极值和为所述全局最大值和所述全局最小值之和,进而在所述待分箱样本集中统计特征值小于所述目标特征值的样本的数量,获得第一样本数量,在所述待分箱样本集中统计特征值大于所述目标特征值的样本的数量,获得第二样本数量。
其中,所述全局样本特征极值包括全局最小值和全局最大值,
所述基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量的步骤包括:
步骤A21,基于所述全局最小值、全局最大值和所述预设样本分箱比例,计算目标特征值;
在本实施例中,基于所述全局最小值、全局最大值和所述预设样本分箱比例,计算目标特征值,具体地,计算所述全局最小值和所述全局最大值之和,获得全局极值和,进而基于所述全局极值和与所述预设样本分箱比例之间的乘积,获得目标特征值。
步骤A22,基于所述目标特征值,对所述待分箱样本集进行特征分箱,获得第一初始分箱和第二初始分箱;
在本实施例中,基于所述目标特征值,对所述待分箱样本集进行特征分箱,获得第一初始分箱和第二初始分箱,具体地,基于所述目标特征值,对所述待分箱样本集进行特征分箱,将特征值小于所述目标特征值的样本划分至同一分箱,获得第一初始分箱,将特征值大于所述目标特征值的样本划分至同一分箱,获得第二初始分箱。
步骤A23,统计所述第一初始分箱对应的样本数量,获得第一样本数量,并统计所述第二初始分箱对应的样本数量,获得第二样本数量。
在本实施例中,统计所述第一初始分箱对应的样本数量,获得第一样本数量,并统计所述第二初始分箱对应的样本数量,获得第二样本数量,具体地,统计所述第一初始分箱中样本的数量,获得第一样本数量,并统计所述第二初始分箱中样本的数量,获得第二样本数量。
步骤A30,将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点。
在本实施例中,将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点,具体地,将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备计算各所述第一样本数量之和,获得第一样本总数,并计算各所述第二样本数量之和,获得第二样本总数,进而基于所述第一样本数量与全局样本数量,计算第一全局样本比例,基于所述第二样本数量与全局样本数量,计算第二全局样本比例,进而基于所述第一样本比例与所述第二样本比例,判断分位点分布位置,进而基于所述分位点分布位置,确定目标分位点。
本实施例提供了一种特征分箱方法,相比于现有技术采用的互相发送特征数据的方式来进行联合特征分箱的技术手段,本实施例在获取样本特征极值和样本数量之后,将所述样本特征极值和样本数量发送至第一设备,以供第一设备确定全局样本特征极值和全局样本数量,进而第二设备在接收第一设备发送的全局样本特征极值后,基于所述全局样本特征极值和预设样本分箱比例,统计所述预设样本分箱比例对应的目标特征点两侧的第一样本数量和第二样本数量,进而将所述第一样本数量和所述第二样本数量发送至所述第一设备,所述第一设备即可基于各所述第一样本数量、各所述第二样本数量以及全局样本数量,确定分位点分布位置,进而获得目标分位点,其中,第一设备在与各第二设备进行交互时,发送的仅仅为样本的数量和样本的特征极值,而不是发送特征数据本身,进而各第二设备不会互相暴露各自的特征数据,进而克服了现有技术中各方在进行联合特征分箱,会互相暴露各自的隐私数据的技术缺陷,进而在联合多方进行特征分箱的同时,实现了对各方的隐私的保护。
参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图3所示,该特征分箱设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该特征分箱设备还可以包括矩形用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的特征分箱设备结构并不构成对特征分箱设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块以及特征分箱方法程序。操作***是管理和控制特征分箱设备硬件和软件资源的程序,支持特征分箱方法程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与特征分箱方法***中其它硬件和软件之间通信。
在图3所示的特征分箱设备中,处理器1001用于执行存储器1005中存储的特征分箱方法程序,实现上述任一项所述的特征分箱方法的步骤。
本申请特征分箱设备具体实施方式与上述特征分箱方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种特征分箱装置,所述特征分箱装置应用于特征分箱设备,所述特征分箱装置包括:
第一确定模块,用于接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
发送模块,用于将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
第二确定模块,用于接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;
第三确定模块,用于基于所述分位点分布位置,确定目标分位点。
可选地,所述第二确定模块包括:
聚合单元,用于分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;
计算单元,用于基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;
确定单元,用于基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。
可选地,所述确定单元包括:
计算子单元,用于基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例;
比对子单元,用于将所述全局目标样本分布比例与所述预设样本分箱比例进行比对;
第一判定子单元,用于若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的右侧位置;
第二判定子单元,用于若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置。
可选地,所述第三确定模块包括:
更新单元,用于基于所述分位点分布位置,确定第二全局样本特征极值;
迭代计算单元,用于基于所述第二全局样本特征极值,通过与各所述第二设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点。
可选地,所述更新单元包括:
发送子单元,用于将所述分位点分布位置发送至各所述第二设备,以供各所述第二设备基于所述分位点分布位置,对所述样本特征极值进行更新,获得第二样本特征极值;
聚合子单元,用于接收各所述第二设备发送的第二样本特征极值,并对各所述第二样本特征极值进行聚合,获得第二全局样本特征极值。
本申请特征分箱装置的具体实施方式与上述特征分箱方法各实施例基本相同,在此不再赘述。
为实现上述目的,本申请实施例还提供一种特征分箱装置,且所述特征分箱装置应用于第二设备,所述特征分箱装置包括:
获取模块,用于获取待分箱样本集对应的样本特征极值和对应的样本数量,并将所述样本特征极值和样本数量发送至第一设备,以供所述第一设备确定全局样本特征极值和全局样本数量;
统计模块,用于接收所述第一设备发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;
发送模块,用于将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点。
可选地,所述统计模块包括:
计算单元,用于基于所述全局最小值、全局最大值和所述预设样本分箱比例,计算目标特征值;
特征分箱单元,用于基于所述目标特征值,对所述待分箱样本集进行特征分箱,获得第一初始分箱和第二初始分箱;
统计单元,用于统计所述第一初始分箱对应的样本数量,获得第一样本数量,并统计所述第二初始分箱对应的样本数量,获得第二样本数量。
本申请特征分箱装置的具体实施方式与上述特征分箱方法各实施例基本相同,在此不再赘述
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (10)

1.一种特征分箱方法,其特征在于,所述特征分箱方法应用于第一设备,所述特征分箱方法包括:
接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;
基于所述分位点分布位置,确定目标分位点。
2.如权利要求1所述特征分箱方法,其特征在于,所述基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置的步骤包括:
分别对各所述第一样本数量和各所述第二样本数量进行聚合,获得第一样本总数和第二样本总数;
基于所述第一样本总数和所述全局样本数量,计算第一全局样本比例,并基于所述第二样本总数和所述全局样本数量,计算第二全局样本比例;
基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置。
3.如权利要求2所述特征分箱方法,其特征在于,所述基于所述第一全局样本比例、所述第二全局样本比例和所述预设样本分箱比例,确定所述分位点分布位置的步骤包括:
基于所述第一全局样本比例和所述第二全局样本比例,计算全局目标样本分布比例;
将所述全局目标样本分布比例与所述预设样本分箱比例进行比对;
若所述全局目标样本分布比例小于所述预设样本分箱比例,则判定所述分位点分布位置为所述预设样本分箱比例对应的目标特征点的右侧位置;
若所述全局目标样本分布比例大于所述预设样本分箱比例,则判定所述分位点分布位置为所述目标特征点的左侧位置。
4.如权利要求1所述特征分箱方法,其特征在于,所述基于所述分位点分布位置,确定目标分位点的步骤包括:
基于所述分位点分布位置,确定第二全局样本特征极值;
基于所述第二全局样本特征极值,通过与各所述第二设备进行分箱交互,计算第二全局目标样本分布比例,直至所述第二全局目标样本分布比例符合预设迭代计算结束条件,获得所述目标分位点。
5.如权利要求4所述特征分箱方法,其特征在于,所述基于所述分位点分布位置,确定第二全局样本特征极值的步骤包括:
将所述分位点分布位置发送至各所述第二设备,以供各所述第二设备基于所述分位点分布位置,对所述样本特征极值进行更新,获得第二样本特征极值;
接收各所述第二设备发送的第二样本特征极值,并对各所述第二样本特征极值进行聚合,获得第二全局样本特征极值。
6.一种特征分箱方法,其特征在于,所述特征分箱方法应用于第二设备,所述特征分箱方法包括:
获取待分箱样本集对应的样本特征极值和对应的样本数量,并将所述样本特征极值和样本数量发送至第一设备,以供所述第一设备确定全局样本特征极值和全局样本数量;
接收所述第一设备发送的所述全局样本特征极值,并基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量;
将所述第一样本数量和所述第二样本数量发送至所述第一设备,以供所述第一设备基于所述全局样本数量、所述第一样本数量和所述第二样本数量,确定目标分位点。
7.如权利要求6所述特征分箱方法,其特征在于,所述全局样本特征极值包括全局最小值和全局最大值,
所述基于所述全局样本特征极值和预设样本分箱比例,统计第一样本数量和第二样本数量的步骤包括:
基于所述全局最小值、全局最大值和所述预设样本分箱比例,计算目标特征值;
基于所述目标特征值,对所述待分箱样本集进行特征分箱,获得第一初始分箱和第二初始分箱;
统计所述第一初始分箱对应的样本数量,获得第一样本数量,并统计所述第二初始分箱对应的样本数量,获得第二样本数量。
8.一种特征分箱装置,其特征在于,所述特征分箱装置包括:
第一确定模块,用于接收各第二设备发送的样本特征极值和样本数量,并基于各所述样本特征极值和各所述样本数量,确定全局样本特征极值和全局样本数量;
发送模块,用于将所述全局样本特征极值发送至各所述第二设备,以供各所述第二设备基于所述全局样本特征极值和预设样本分箱比例,确定第一样本数量和第二样本数量;
第二确定模块,用于接收各所述第二设备发送的所述第一样本数量和所述第二样本数量,并基于各所述第一样本数量、各所述第二样本数量和所述全局样本数量,确定分位点分布位置;
第三确定模块,用于基于所述分位点分布位置,确定目标分位点。
9.一种特征分箱设备,其特征在于,所述特征分箱设备包括:存储器、处理器以及存储在存储器上的用于实现所述特征分箱方法的程序,
所述存储器用于存储实现特征分箱方法的程序;
所述处理器用于执行实现所述特征分箱方法的程序,以实现如权利要求1至5或者6至7中任一项所述特征分箱方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现特征分箱方法的程序,所述实现特征分箱方法的程序被处理器执行以实现如权利要求1至5或者6至7中任一项所述特征分箱方法的步骤。
CN202010747783.5A 2020-07-29 2020-07-29 特征分箱方法、装置、设备及可读存储介质 Pending CN111898765A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010747783.5A CN111898765A (zh) 2020-07-29 2020-07-29 特征分箱方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010747783.5A CN111898765A (zh) 2020-07-29 2020-07-29 特征分箱方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN111898765A true CN111898765A (zh) 2020-11-06

Family

ID=73183449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010747783.5A Pending CN111898765A (zh) 2020-07-29 2020-07-29 特征分箱方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111898765A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100678A (zh) * 2020-11-16 2020-12-18 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器
CN112711765A (zh) * 2020-12-30 2021-04-27 深圳前海微众银行股份有限公司 样本特征的信息价值确定方法、终端、设备和存储介质
CN112836765A (zh) * 2021-03-01 2021-05-25 深圳前海微众银行股份有限公司 分布式学习的数据处理方法、装置、电子设备
CN116244650A (zh) * 2023-05-12 2023-06-09 北京富算科技有限公司 特征分箱方法、装置、电子设备和计算机可读存储介质
CN116521493A (zh) * 2022-12-02 2023-08-01 北京小米移动软件有限公司 故障检测方法、装置及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055236A1 (en) * 2014-08-21 2016-02-25 Affectomatics Ltd. Personalized experience scores based on measurements of affective response
CN108733631A (zh) * 2018-04-09 2018-11-02 中国平安人寿保险股份有限公司 一种数据评估方法、装置、终端设备及存储介质
CN108764273A (zh) * 2018-04-09 2018-11-06 中国平安人寿保险股份有限公司 一种数据处理的方法、装置、终端设备及存储介质
CN108959187A (zh) * 2018-04-09 2018-12-07 中国平安人寿保险股份有限公司 一种变量分箱方法、装置、终端设备及存储介质
CN110472802A (zh) * 2018-05-09 2019-11-19 阿里巴巴集团控股有限公司 一种数据特征评估方法、装置及设备
CN110704535A (zh) * 2019-09-26 2020-01-17 深圳前海微众银行股份有限公司 数据分箱方法、装置、设备及计算机可读存储介质
WO2020029590A1 (zh) * 2018-08-10 2020-02-13 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN111259404A (zh) * 2020-01-09 2020-06-09 鹏城实验室 中毒样本生成方法、装置、设备及计算机可读存储介质
CN111340614A (zh) * 2020-02-28 2020-06-26 深圳前海微众银行股份有限公司 基于联邦学习的样本采样方法、设备及可读存储介质
CN111401572A (zh) * 2020-06-05 2020-07-10 支付宝(杭州)信息技术有限公司 基于隐私保护的有监督特征分箱方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055236A1 (en) * 2014-08-21 2016-02-25 Affectomatics Ltd. Personalized experience scores based on measurements of affective response
CN108733631A (zh) * 2018-04-09 2018-11-02 中国平安人寿保险股份有限公司 一种数据评估方法、装置、终端设备及存储介质
CN108764273A (zh) * 2018-04-09 2018-11-06 中国平安人寿保险股份有限公司 一种数据处理的方法、装置、终端设备及存储介质
CN108959187A (zh) * 2018-04-09 2018-12-07 中国平安人寿保险股份有限公司 一种变量分箱方法、装置、终端设备及存储介质
CN110472802A (zh) * 2018-05-09 2019-11-19 阿里巴巴集团控股有限公司 一种数据特征评估方法、装置及设备
WO2020029590A1 (zh) * 2018-08-10 2020-02-13 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN110704535A (zh) * 2019-09-26 2020-01-17 深圳前海微众银行股份有限公司 数据分箱方法、装置、设备及计算机可读存储介质
CN111259404A (zh) * 2020-01-09 2020-06-09 鹏城实验室 中毒样本生成方法、装置、设备及计算机可读存储介质
CN111340614A (zh) * 2020-02-28 2020-06-26 深圳前海微众银行股份有限公司 基于联邦学习的样本采样方法、设备及可读存储介质
CN111401572A (zh) * 2020-06-05 2020-07-10 支付宝(杭州)信息技术有限公司 基于隐私保护的有监督特征分箱方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MOHAMMAD HADIAN 等: "Privacy-Preserving mHealth Data Release with Pattern Consistency", 《2016 IEEE GLOBAL COMMUNICATIONS CONFERENCE (GLOBECOM)》, 31 December 2017 (2017-12-31), pages 1 - 6 *
付玉香 等: "基于迁移学习的多源数据隐私保护方法研究", 《计算机工程与科学》, vol. 41, no. 4, 31 December 2019 (2019-12-31), pages 641 - 648 *
傅德胜 等: "基于数据挖掘的分布式网络入侵检测***设计及实现", 《计算机科学》, vol. 36, no. 3, 31 December 2009 (2009-12-31), pages 103 - 105 *
刘倩: "基于数据挖掘技术的信用评分卡模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2020, no. 1, 15 January 2020 (2020-01-15), pages 138 - 976 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100678A (zh) * 2020-11-16 2020-12-18 支付宝(杭州)信息技术有限公司 基于隐私保护的数据处理方法、装置和服务器
CN112711765A (zh) * 2020-12-30 2021-04-27 深圳前海微众银行股份有限公司 样本特征的信息价值确定方法、终端、设备和存储介质
CN112836765A (zh) * 2021-03-01 2021-05-25 深圳前海微众银行股份有限公司 分布式学习的数据处理方法、装置、电子设备
CN112836765B (zh) * 2021-03-01 2023-12-22 深圳前海微众银行股份有限公司 分布式学习的数据处理方法、装置、电子设备
CN116521493A (zh) * 2022-12-02 2023-08-01 北京小米移动软件有限公司 故障检测方法、装置及存储介质
CN116521493B (zh) * 2022-12-02 2024-02-13 北京小米移动软件有限公司 故障检测方法、装置及存储介质
CN116244650A (zh) * 2023-05-12 2023-06-09 北京富算科技有限公司 特征分箱方法、装置、电子设备和计算机可读存储介质
CN116244650B (zh) * 2023-05-12 2023-10-03 北京富算科技有限公司 特征分箱方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111898765A (zh) 特征分箱方法、装置、设备及可读存储介质
CN107391538B (zh) 点击数据采集、处理和展示方法、装置、设备及存储介质
CN107967359B (zh) 数据可视分析方法、***、终端和计算机可读存储介质
CN109388791B (zh) 图表动态展示方法、装置、计算机设备及存储介质
EP4130961A1 (en) Shape selection method and apparatus, electronic device, storage medium and computer program
CN112861939A (zh) 特征选择方法、设备、可读存储介质及计算机程序产品
CN107807841B (zh) 服务器模拟方法、装置、设备及可读存储介质
CN111682988B (zh) 远程控制方法、装置、存储介质和处理器
CN111612377A (zh) 信息推送方法、装置、电子设备和计算机可读介质
CN111768242A (zh) 下单率预测方法、设备及可读存储介质
JP2020507147A (ja) リアルタイムデータ処理方法及び装置
CN113920022A (zh) 一种图像优化方法、装置、终端设备及可读存储介质
CN110851225B (zh) 可视化展示增量图元动态布局的方法、终端设备及存储介质
CN112001452A (zh) 特征选择方法、装置、设备及可读存储介质
CN108810543A (zh) 视频编码的补偿方法及装置
CN114119423A (zh) 图像处理方法、装置、电子设备和存储介质
CN112988339A (zh) 一种数据管理方法及装置
CN114153350B (zh) 图谱缩放方法、装置、存储介质及电子设备
CN111143397B (zh) 混合数据查询方法及装置、存储介质
CN116561735B (zh) 一种基于多认证源的互信认证方法、***及电子设备
US20220405139A1 (en) Antenna array device
CN112100678B (zh) 基于隐私保护的数据处理方法、装置和服务器
KR102676784B1 (ko) 사용자의 서비스 체감 성능 평가 방법 및 시스템
CN111611782B (zh) 一种连接点生成方法和装置
CN113361595A (zh) 样本匹配度计算优化方法、设备、介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination