CN112001452A - 特征选择方法、装置、设备及可读存储介质 - Google Patents

特征选择方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112001452A
CN112001452A CN202010891722.6A CN202010891722A CN112001452A CN 112001452 A CN112001452 A CN 112001452A CN 202010891722 A CN202010891722 A CN 202010891722A CN 112001452 A CN112001452 A CN 112001452A
Authority
CN
China
Prior art keywords
feature
global
data
local
encrypted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010891722.6A
Other languages
English (en)
Other versions
CN112001452B (zh
Inventor
吴玙
范涛
马国强
魏文斌
谭明超
郑会钿
陈天健
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010891722.6A priority Critical patent/CN112001452B/zh
Publication of CN112001452A publication Critical patent/CN112001452A/zh
Application granted granted Critical
Publication of CN112001452B publication Critical patent/CN112001452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种特征选择方法、装置、设备及可读存储介质,所述特征选择方法包括:获取待选择特征数据,并基于所述待选择特征数据,与第二设备进行加密聚合交互,获得所述待选择特征数据对应的全局统计特征数据,进而基于所述全局统计特征数据,计算全局相关性系数,进而基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据。本申请解决了特征选择效果差的技术问题。

Description

特征选择方法、装置、设备及可读存储介质
技术领域
本申请涉及金融科技(Fintech)的人工智能领域,尤其涉及一种特征选择方法、装置、设备及可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,联邦学习的应用领域也越来越广泛,例如,在进行机器学习模型训练时,通常需要对入模的特征进行特征选择,以选择合适的特征样本进行模型训练等,目前,通常基于本地特征样本的数据特征,在本地特征样本中选择入模特征对应的目标特征样本数据,但是,由于本地特征样本的数据分布范围较小,进而导致基于本地特征样本的数据特征进行特征选择的效果较差。
发明内容
本申请的主要目的在于提供一种特征选择方法、装置、设备及可读存储介质,旨在解决现有技术中特征选择效果差的技术问题。
为实现上述目的,本申请提供一种特征选择方法,所述特征选择方法应用于第一设备,所述特征选择方法包括:
获取待选择特征数据,并基于所述待选择特征数据,与第二设备进行加密聚合交互,获得所述待选择特征数据对应的全局统计特征数据;
基于所述全局统计特征数据,计算全局相关性系数;
基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据。
本申请还提供一种特征选择装置,所述特征选择装置为虚拟装置,且所述特征选择装置应用于第一设备,所述特征选择装置包括:
加密聚合模块,用于获取待选择特征数据,并基于所述待选择特征数据,与第二设备进行加密聚合交互,获得所述待选择特征数据对应的全局统计特征数据;
计算模块,用于基于所述全局统计特征数据,计算全局相关性系数;
特征选择模块,用于基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据。
本申请还提供一种特征选择设备,所述特征选择设备为实体设备,所述特征选择设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述特征选择方法的程序,所述特征选择方法的程序被处理器执行时可实现如上述的特征选择方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现特征选择方法的程序,所述特征选择方法的程序被处理器执行时实现如上述的特征选择方法的步骤。
本申请提供了一种特征选择方法、设备和可读存储介质,相比于现有技术采用的基于本地特征样本的数据特征,在本地特征样本中选择入模特征对应的目标特征样本的技术手段,本申请在获取待选择特征数据之后,通过与所述第二设备进行加密聚合交互,计算所述待选择特征数据对应的全局统计特征数据,进而基于所述全局统计特征数据,计算全局相关性系数,进而基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据,其中,由于全局相关性系数是基于全局统计特征数据计算获得的,进而实现了基于全局特征样本的数据特征,对本地特征样本进行特征选择的目的,使得目标特征数据在全局数据分布范围内满足作为入模特征的样本数据的条件,进而克服了现有技术中由于本地特征样本的数据分布范围较小,进而基于本地特征样本的数据特征,在本地特征样本中选择入模特征对应的目标特征样本,将导致目标特征样本数据仅在局部数据分布范围内满足作为入模特征的样本数据,而难以保证目标特征样本数据在全局数据分布范围内满足作为入模特征的样本数据的技术缺陷,进而增强了特征选择的效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请特征选择方法第一实施例的流程示意图;
图2为本申请特征选择方法第二实施例的流程示意图;
图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种特征选择方法,在本申请特征选择方法的第一实施例中,参照图1,所述特征选择方法包括:
步骤S10,获取待选择特征数据,并基于所述待选择特征数据,与第二设备进行加密聚合交互,获得所述待选择特征数据对应的全局统计特征数据;
在本实施例中,需要说明的是,所述第一设备为横向联邦学习的参与方,所述第二设备为横向联邦学习的协调方,所述待选择特征数据至少对应一待选择特征,所述待选择特征至少对应一待选择特征值,其中,所述待选择特征由各第一设备进行样本对齐时确定。
另外地,需要说明的是,所述全局统计特征数据至少包括一全局特征标准差和全局特征协方差,其中,所述全局特征标准差为横向联邦学习的所有参与方本地的待选择特征数据共同对应的标准差,所述全局特征协方差为横向联邦学习的所有参与方本地的待选择特征数据共同对应的协方差。
获取待选择特征数据,并基于所述待选择特征数据,与第二设备进行加密聚合交互,获得所述待选择特征数据对应的全局统计特征数据,具体地,获取每一待选择特征对应的各待选择特征值,并分别求取每一待选择特征对应的各待选择特征值的平均值,获得每一所述待选择特征对应的本地特征平均值,进而基于各所述特征本地平均值,与所述第二设备进行加密聚合交互,以联合其他第一设备计算每一待选择特征的本地特征平均值,计算每一待选择特征对应的全局特征平均值,进而基于每一待选择特征对应的全局特征平均值和对应的各待选择特征值,计算每一待选择特征对应的本地特征标准差和各所述待选择特征两两之间的本地特征协方差,进而基于各所述本地特征标准差与所述第二设备进行加密聚合交互,以联合其他第一设备计算的本地特征标准差,计算各所述本地特征标准差对应的全局特征标准差,并基于各所述本地特征协方差与所述第二设备进行加密聚合交互,以联合其他第一设备计算的本地特征协方差,计算各所述本地特征协方差对应的全局特征协方差。
步骤S20,基于所述全局统计特征数据,计算全局相关性系数;
在本实施例中,需要说明的是,所述全局相关性系数至少包括两个待选择特征之间的皮尔森相关性系数值。
基于所述全局统计特征数据,计算全局相关性系数,具体地,基于各所述全局特征标准差和各所述全局特征协方差,通过预设皮尔森相关性系数计算公式,计算各所述待选择特征两两之间的皮尔森相关性系数值,其中,所述预设皮尔森相关性系数计算公式如下:
Figure BDA0002653763900000041
其中,X1和X2均为待选择特征,
Figure BDA0002653763900000042
为X1和X2之间的皮尔森相关性系数值,σ1为X1对应的全局特征标准差,σ2为X2对应的全局特征标准差,
Figure BDA0002653763900000043
为X1和X2之间的全局特征协方差。
步骤S30,基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据。
在本实施例中,需要说明的是,所述全局相关性系数包括待选择特征之间的特征相关性系数和待选择特征与样本标签之间的标签相关性系数,其中,所述特征相关性系数为表示待选择特征之间的关联程度的衡量值,所述标签相关性系数为表示待选择特征与样本标签之间的关联程度的衡量值。
基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据,具体地,基于所述特征相关性系数,在所述待选择特征数据中剔除相关程度高的关联特征数据,获得第一选择特征数据,进而基于所述标签相关性系数,在所述第一选择特征数据中选择与样本标签关联程度高的特征数据作为所述目标特征数据。
其中,所述全局相关性***包括全局特征相关性系数,所述待选择特征数据至少对应一待选择特征,
所述基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据的步骤包括:
步骤A10,基于所述全局特征相关性系数,在各所述待选择特征中筛选共线性特征组合;
在本实施例中,需要说明的是,所述共线性特征组合为相关程度大于第一预设相关程度阀值的两个待选择特征的集合,所述全局特征相关性系数至少包括两个待选择特征之间的第一皮尔森相关性系数值。
基于所述全局特征相关性系数,在各所述待选择特征中筛选共线性特征组合,具体地,将各所述第一皮尔森相关性系数值分别与预设第一特征相关性系数阀值进行比对,若所述第一皮尔森相关性系数值大于或者等于所述预设第一特征相关性系数阀值,则判定所述第一皮尔森相关性系数值对应的两个待选择特征为共线性特征组合,若所述第一皮尔森相关性系数值小于所述预设第一特征相关性系数阀值,则判定所述第一皮尔森相关性系数值对应的两个待选择特征不为共线性特征组合。
步骤A20,基于所述共线性特征组合,对所述待选择特征数据进行特征选择,以在所述待选择特征数据中剔除相关性特征数据,获得所述目标特征数据。
在本实施例中,需要说明的是,所述相关性特征数据为共线性特征组合中共线性特征对应的样本数据。
基于所述共线性特征组合,对所述待选择特征数据进行特征选择,以在所述待选择特征数据中剔除相关性特征数据,获得所述目标特征数据,具体地,在所述待选择特征数据中确定共线性特征组合对应的待剔除样本数据,并在到剔除数据中剔除共线性特征组合中任意一共线性特征对应的待剔除样本,以在所述待选择特征数据中剔除相关性特征数据,获得所述目标特征数据,例如,假设待选择特征数据为样本集(A1,A2,A3,B1,B2,B3,C1,C2,C3),其中,待选择特征A对应的样本集为(A1,A2,A3),待选择特征B对应的样本集为(B1,B2,B3),待选择特征C对应的样本集为(C1,C2,C3),待选择特征A和待选择特征B互为共线性特征,则应当剔除带选择特征A或者待选择特征B,进而所述目标特征数据为样本集(A1,A2,A3,C1,C2,C3)或者为样本集(B1,B2,B3,C1,C2,C3)。
另外地,需要说明的是,本实施例中基于共线性特征组合,剔除相关性特征数据的方法,可将相关程度高的特征从训练数据中进行剔除,减少了非必要的入模特征的数量,减少了横向联邦学习时关于相关性特征数据的计算过程,提高了基于横向联邦学习构建模型时的计算效率。
其中,所述全局相关性系数包括全局标签相关性系数,
所述基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据的步骤包括:
步骤B10,基于所述全局标签相关性系数,在各所述待选择特征中筛选标签相关性特征组合;
在本实施例中,需要说明的是,所述标签相关性特征组合为相关程度大于预设第二相关程度阀值的待选择特征和样本标签的组合,所述全局标签相关性系数至少包括一待选择特征与一样本标签之间的第二皮尔森相关性系数值。
基于所述全局特征相关性系数,在各所述待选择特征中筛选共线性特征组合,具体地,将各所述第二皮尔森相关性系数值分别与预设特征相关性系数阀值进行比对,若所述第二皮尔森相关性系数值大于或者等于所述预设第二特征相关性系数阀值,则判定所述第二皮尔森相关性系数值对应的待选择特征和对应的样本标签共同属于标签相关性特征组合,若所述第二皮尔森相关性系数值小于所述预设第二特征相关性系数阀值,则判定所述第二皮尔森相关性系数值对应的待选择特征和对应的样本标签不共同属于标签相关性特征组合。
步骤B20,基于所述标签相关性特征组合,对所述待选择特征数据进行特征选择,以选取标签相关性高的样本数据,获得所述目标特征数据。
在本实施例中,基于所述标签相关性特征组合,对所述待选择特征数据进行特征选择,以选取标签相关性高的样本数据,获得所述目标特征数据,具体地,在所述待选择特征数据中确定所述标签相关性特征组合中每一标签相关性特征对应的待选取样本数据,其中,所述待选取样本数据即为标签相关性高的样本数据,进而将各所述待选取样本数据作为所述目标特征数据,例如,假设待选择特征数据为样本集(A1,A2,A3,B1,B2,B3,C1,C2,C3),其中,待选择特征A对应的样本集为(A1,A2,A3),待选择特征B对应的样本集为(B1,B2,B3),待选择特征C对应的样本集为(C1,C2,C3),待选择特征A和待选择特征B均属于标签相关性特征组合,进而所述目标特征数据为样本集(A1,A2,A3,B1,B2,B3)。
另外地,需要说明的是,另外地,需要说明的是,本实施例中基于标签相关性特征组合,选取目标特征数据的方法,可选取与样本标签相关性高的特征入模,使得模型内容与特征的相关性高,减少了与样本标签相关性低的入模特征的数量,进而减少了横向联邦学习时关于与样本标签相关性低的入模特征的计算过程,提高了基于横向联邦学习构建模型时的计算效率。
本实施例提供了一种特征选择方法,相比于现有技术采用的基于本地特征样本的数据特征,在本地特征样本中选择入模特征对应的目标特征样本的技术手段,本实施例在获取待选择特征数据之后,通过与所述第二设备进行加密聚合交互,计算所述待选择特征数据对应的全局统计特征数据,进而基于所述全局统计特征数据,计算全局相关性系数,进而基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据,其中,由于全局相关性系数是基于全局统计特征数据计算获得的,进而实现了基于全局特征样本的数据特征,对本地特征样本进行特征选择的目的,使得目标特征数据在全局数据分布范围内满足作为入模特征的样本数据的条件,进而克服了现有技术中由于本地特征样本的数据分布范围较小,进而基于本地特征样本的数据特征,在本地特征样本中选择入模特征对应的目标特征样本,将导致目标特征样本数据仅在局部数据分布范围内满足作为入模特征的样本数据,而难以保证目标特征样本数据在全局数据分布范围内满足作为入模特征的样本数据的技术缺陷,进而增强了特征选择的效果。
进一步地,参照图2,基于本申请中第一实施例,在本申请的另一实施例中,述基于所述待选择特征数据,与第二设备进行加密聚合交互,获得所述待选择特征数据对应的全局统计特征数据的步骤包括:
步骤S11,计算所述待选择特征数据对应的本地统计特征数据,并对所述本地统计特征数据进行加密,获得加密本地统计特征数据;
在本实施例中,需要说明的是,所述本地统计特征数据包括本地特征方差和本地特征协方差。
计算所述待选择特征数据对应的本地统计特征数据,并对所述本地统计特征数据进行加密,获得加密本地统计特征数据,具体地,分别求取每一待选择特征对应的各待选择特征值的平均值,获得每一所述待选择特征对应的本地特征平均值,进而基于各所述特征本地平均值,与所述第二设备进行加密聚合交互,以联合其他第一设备计算每一待选择特征的本地特征平均值,计算每一待选择特征对应的全局特征平均值,进而基于每一待选择特征对应的全局特征平均值和对应的各待选择特征值,计算每一待选择特征对应的本地特征方差和各所述待选择特征两两之间的本地特征协方差,进而分别对各所述本地特征方差和各所述本地特征协方差进行同态加密,获得各所述本地特征方差对应的加密本地特征方差和各所述本地特征协方差对应的加密本地特征协方差。
其中,所述计算所述待选择特征数据对应的本地统计特征数据的步骤包括:
步骤S111,计算所述待选择特征数据的本地特征平均值,并对所述本地特征平均值进行加密,获得加密本地特征平均值;
在本实施例中,计算所述待选择特征数据的本地特征平均值,并对所述本地特征平均值进行加密,获得加密本地特征平均值,具体地,分别求取每一待选择特征对应的各待选择特征值的平均值,获得每一所述待选择特征对应的本地特征平均值,进而分别对各所述本地特征平均值进行同态加密,获得各所述本地特征平均值对应的加密本地特征平均值。
步骤S112,将所述加密本地特征平均值和所述加密本地特征平均值对应的第三本地数据量发送至第二设备,以供所述第二设备对各所述第一设备发送的加密本地特征平均值进行聚合,获得加密全局特征平均值;
在本实施例中,需要说明的是,所述第三本地数据量为计算每一待选择特征对应的加密本地特征平均值所使用的待选择特征值的数量。
将所述加密本地特征平均值和所述加密本地特征平均值对应的第三本地数据量发送至第二设备,以供所述第二设备对各所述第一设备发送的加密本地特征平均值进行聚合,获得加密全局特征平均值,具体地,将每一所述待选择特征对应的加密本地特征平均值发送至所述第二设备,以供所述第二设备基于预设聚合规则和各所述第一设备发送的第三本地数据量,对各所述第一设备发送的每一所述待选择特征对应的加密本地特征平均值进行聚合,获得每一所述待选择特征对应的加密全局特征平均值,其中,所述预设聚合规则包括加权平均、求和与求均值等,并将每一所述待选择特征对应的全局特征平均值分别发送至各所述第一设备。
步骤S113,接收所述第二设备反馈的所述加密全局特征平均值,并对所述加密全局特征平均值进行解密,获得所述全局特征平均值;
在本实施例中,接收所述第二设备反馈的所述加密全局特征平均值,并对所述加密全局特征平均值进行解密,获得所述全局特征平均值,具体地,接收所述第二设备反馈的每一所述待选择特征对应的加密全局特征平均值,并对各所述加密全局特征平均值进行解密,获得各所述待选择特征对应的全局特征平均值。
步骤S114,基于所述全局特征平均值,计算所述本地统计特征数据。
在本实施例中,基于所述全局特征平均值,计算所述本地统计特征数据,具体地,基于每一待选择特征对应的全局特征平均值和对应的各待选择特征值,分别计算每一所述待选择特征对应的各待选择特征值的方差,获得每一所述待选择特征对应的本地特征方差,并分别计算各所述待选择特征两两之间的协方差,获得各所述本地特征协方差,其中,所述本地特征方差的计算公式如下:
Figure BDA0002653763900000091
其中,
Figure BDA0002653763900000092
为所述本地特征方差,Xj为所述待选择特征值,μ为所述全局特征平均值,另外地,所述本地特征协方差的计算公式如下:
Figure BDA0002653763900000101
其中,
Figure BDA0002653763900000102
为所述本地特征协方差,X1和X2均为所述待选择特征值,μ1和μ2均为所述全局特征平均值,nj为待选特征值的数量。
步骤S12,基于所述加密本地统计特征数据,与所述第二设备进行加密聚合交互,获得全局统计特征数据。
在本实施例中,基于所述加密本地统计特征数据,与所述第二设备进行加密聚合交互,获得全局统计特征数据,具体地,将所述加密本地统计特征数据和所述加密本地统计特征数据对应的统计数据量发送至所述第二设备,以供所述第二设备基于预设聚合规则和所述统计数据量,对各所述第一设备发送的加密本地统计特征数据进行聚合,获得加密全局统计特征数据,并将所述加密全局统计特征数据分别发送至各所述第一设备,进而第一设备对接收到的加密全局统计特征数据进行解密,获得全局统计特征数据。
其中,所述加密本地统计特征数据至少包括一加密本地特征方差,所述全局统计特征数据至少包括一全局特征标准差,
所述基于所述加密本地统计特征数据,与所述第二设备进行加密聚合交互,获得全局统计特征数据的步骤包括:
步骤S121,将所述加密本地特征方差和所述加密本地特征方差对应的第一本地数据量发送至第二设备,以供所述第二设备对各所述第一设备发送的加密本地特征方差进行聚合,获得加密全局特征方差;
在本实施例中,需要说明的是,所述第一本地数据量为计算每一待选择特征对应的加密本地特征方差所使用的待选择特征值的数量。
将所述加密本地特征方差和所述加密本地特征方差对应的第一本地数据量发送至第二设备,以供所述第二设备对各所述第一设备发送的加密本地特征方差进行聚合,获得加密全局特征方差,具体地,将所述加密本地特征方差和所述加密本地特征方差对应的第一本地数据量发送至第二设备,以供所述第二设备基于预设聚合规则和各第一设备发送的第一本地数据量,对各所述第一设备发送的加密本地特征方差进行聚合,获得加密全局特征方差,其中,在一种可实施的方案中,对各所述第一设备发送的加密本地特征方差进行聚合的计算公式如下:
Figure BDA0002653763900000111
其中,
Figure BDA0002653763900000112
为所述加密全局特征方差,
Figure BDA0002653763900000113
为所述加密本地特征方差,nj为所述第一本地数据量。
步骤S122,接收所述第二设备反馈的所述加密全局特征方差,并对所述加密全局特征方差进行解密,获得全局特征方差;
在本实施例中,接收所述第二设备反馈的所述加密全局特征方差,并对所述加密全局特征方差进行解密,获得全局特征方差,具体地,接收所述第二设备反馈的每一所述待选择特征对应的加密全局特征方差,并分别为各所述加密全局特征方差进行解密,获得每一所述待选择特征对应的全局特征方差。
步骤S123,基于所述全局特征方差,计算所述全局特征标准差。
在本实施例中,基于所述全局特征方差,计算所述全局特征标准差,具体地,分别对各所述全局特征方差开平方根号,获得各所述待选择特征对应的全局特征标准差。
其中,所述加密本地统计特征数据至少包括一加密本地特征协方差,所述全局统计特征数据至少包括一全局特征协方差,
所述基于所述加密本地统计特征数据,与所述第二设备进行加密聚合交互,获得全局统计特征数据的步骤包括:
步骤C10,将所述加密本地特征协方差和所述加密本地特征协方差对应的第二本地数据量发送至第二设备,以供所述第二设备对各所述第一设备发送的加密本地特征协方差进行聚合,获得加密全局特征协方差;
在本实施例中,需要说明的是,所述第二本地数据量为计算每一待选择特征对应的加密本地特征协方差所使用的待选择特征值的数量。
将所述加密本地特征协方差和所述加密本地特征协方差对应的第二本地数据量发送至第二设备,以供所述第二设备对各所述第一设备发送的加密本地特征协方差进行聚合,获得加密全局特征协方差,具体地,将所述加密本地特征协方差和所述加密本地特征协方差对应的第一本地数据量发送至第二设备,以供所述第二设备基于预设聚合规则和各第一设备发送的第二本地数据量,对各所述第一设备发送的加密本地特征协方差进行聚合,获得加密全局特征协方差,其中,在一种可实施的方案中,对各所述第一设备发送的加密本地特征协方差进行聚合的计算公式如下:
Figure BDA0002653763900000121
其中,
Figure BDA0002653763900000122
为所述加密全局特征协方差,
Figure BDA0002653763900000123
为所述加密本地特征协方差,nj为所述第二本地数据量。
步骤C20,接收所述第二设备反馈的所述加密全局特征协方差,并对所述加密全局特征协方差进行解密,获得所述全局特征协方差。
在本实施例中,接收所述第二设备反馈的所述加密全局特征协方差,并对所述加密全局特征协方差进行解密,获得所述全局特征协方差,具体地,接收所述第二设备反馈的每一所述待选择特征对应的加密全局特征协方差,并分别为各所述加密全局特征协方差进行解密,获得每一所述待选择特征对应的全局特征协方差。
本实施提供了一种加密聚合计算全局统计特征数据的方法,也即,计算所述待选择特征数据对应的本地统计特征数据,并对所述本地统计特征数据进行加密,获得加密本地统计特征数据,进而基于所述加密本地统计特征数据,与所述第二设备进行加密聚合交互,获得全局统计特征数据,进而可在保证各参与方的数据隐私的前提下,实现了联合各参与方的本地统计特征数据,计算全局统计特征数据的目的,进而基于所述全局统计特征数据,即可计算全局相关性系数,进而基于所述全局相关性系数,即可对所述待选择特征数据进行特征选择,获得目标特征数据,其中,由于全局相关性系数是基于全局统计特征数据计算获得的,进而实现了基于全局特征样本的数据特征,对本地特征样本进行特征选择的目的,使得目标特征数据在全局数据分布范围内满足作为入模特征的样本数据的条件,进而增强了特征选择的效果,为解决特征选择效果差的技术问题奠定了基础。
参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图3所示,该特征选择设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该特征选择设备还可以包括矩形用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的特征选择设备结构并不构成对特征选择设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块以及特征选择程序。操作***是管理和控制特征选择设备硬件和软件资源的程序,支持特征选择程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与特征选择***中其它硬件和软件之间通信。
在图3所示的特征选择设备中,处理器1001用于执行存储器1005中存储的特征选择程序,实现上述任一项所述的特征选择方法的步骤。
本申请特征选择设备具体实施方式与上述特征选择方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种特征选择装置,所述特征选择装置应用于第一设备,所述特征选择装置包括:
加密聚合模块,用于获取待选择特征数据,并基于所述待选择特征数据,与第二设备进行加密聚合交互,获得所述待选择特征数据对应的全局统计特征数据;
计算模块,用于基于所述全局统计特征数据,计算全局相关性系数;
特征选择模块,用于基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据。
可选地,所述加密聚合模块包括:
加密计算子模块,用于计算所述待选择特征数据对应的本地统计特征数据,并对所述本地统计特征数据进行加密,获得加密本地统计特征数据;
聚合子模块,用于基于所述加密本地统计特征数据,与所述第二设备进行加密聚合交互,获得全局统计特征数据。
可选地,所述聚合子模块包括:
第一聚合单元,用于将所述加密本地特征方差和所述加密本地特征方差对应的第一本地数据量发送至第二设备,以供所述第二设备对各所述第一设备发送的加密本地特征方差进行聚合,获得加密全局特征方差;
第一解密单元,用于接收所述第二设备反馈的所述加密全局特征方差,并对所述加密全局特征方差进行解密,获得全局特征方差;
第一计算单元,用于基于所述全局特征方差,计算所述全局特征标准差。
可选地,所述聚合子模块还包括:
第二聚合单元,用于将所述加密本地特征协方差和所述加密本地特征协方差对应的第二本地数据量发送至第二设备,以供所述第二设备对各所述第一设备发送的加密本地特征协方差进行聚合,获得加密全局特征协方差;
第二解密单元,用于接收所述第二设备反馈的所述加密全局特征协方差,并对所述加密全局特征协方差进行解密,获得所述全局特征协方差。
可选地,所述加密计算子模块包括:
加密计算单元,用于计算所述待选择特征数据的本地特征平均值,并对所述本地特征平均值进行加密,获得加密本地特征平均值;
第三聚合单元,用于将所述加密本地特征平均值和所述加密本地特征平均值对应的第三本地数据量发送至第二设备,以供所述第二设备对各所述第一设备发送的加密本地特征平均值进行聚合,获得加密全局特征平均值;
第三解密单元,用于接收所述第二设备反馈的所述加密全局特征平均值,并对所述加密全局特征平均值进行解密,获得所述全局特征平均值;
第二计算单元,用于基于所述全局特征平均值,计算所述本地统计特征数据。
可选地,所述特征选择模块包括:
第一筛选子模块,用于基于所述全局特征相关性系数,在各所述待选择特征中筛选共线性特征组合;
剔除子模块,用于基于所述共线性特征组合,对所述待选择特征数据进行特征选择,以在所述待选择特征数据中剔除相关性特征数据,获得所述目标特征数据。
可选地,所述特征选择模块还包括:
第二筛选子模块,用于基于所述全局标签相关性系数,在各所述待选择特征中筛选标签相关性特征组合;
选取子模块,用于基于所述标签相关性特征组合,对所述待选择特征数据进行特征选择,以选取标签相关性高的样本数据,获得所述目标特征数据。
本申请特征选择装置的具体实施方式与上述特征选择方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的特征选择方法的步骤。
本申请可读存储介质具体实施方式与上述特征选择方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (10)

1.一种特征选择方法,其特征在于,所述特征选择方法应用于第一设备,所述特征选择方法包括:
获取待选择特征数据,并基于所述待选择特征数据,与第二设备进行加密聚合交互,获得所述待选择特征数据对应的全局统计特征数据;
基于所述全局统计特征数据,计算全局相关性系数;
基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据。
2.如权利要求1所述特征选择方法,其特征在于,所述基于所述待选择特征数据,与第二设备进行加密聚合交互,获得所述待选择特征数据对应的全局统计特征数据的步骤包括:
计算所述待选择特征数据对应的本地统计特征数据,并对所述本地统计特征数据进行加密,获得加密本地统计特征数据;
基于所述加密本地统计特征数据,与所述第二设备进行加密聚合交互,获得全局统计特征数据。
3.如权利要求2所述特征选择方法,其特征在于,所述加密本地统计特征数据至少包括一加密本地特征方差,所述全局统计特征数据至少包括一全局特征标准差,
所述基于所述加密本地统计特征数据,与所述第二设备进行加密聚合交互,获得全局统计特征数据的步骤包括:
将所述加密本地特征方差和所述加密本地特征方差对应的第一本地数据量发送至第二设备,以供所述第二设备对各所述第一设备发送的加密本地特征方差进行聚合,获得加密全局特征方差;
接收所述第二设备反馈的所述加密全局特征方差,并对所述加密全局特征方差进行解密,获得全局特征方差;
基于所述全局特征方差,计算所述全局特征标准差。
4.如权利要求2所述特征选择方法,其特征在于,所述加密本地统计特征数据至少包括一加密本地特征协方差,所述全局统计特征数据至少包括一全局特征协方差,
所述基于所述加密本地统计特征数据,与所述第二设备进行加密聚合交互,获得全局统计特征数据的步骤包括:
将所述加密本地特征协方差和所述加密本地特征协方差对应的第二本地数据量发送至第二设备,以供所述第二设备对各所述第一设备发送的加密本地特征协方差进行聚合,获得加密全局特征协方差;
接收所述第二设备反馈的所述加密全局特征协方差,并对所述加密全局特征协方差进行解密,获得所述全局特征协方差。
5.如权利要求2所述特征选择方法,其特征在于,所述计算所述待选择特征数据对应的本地统计特征数据的步骤包括:
计算所述待选择特征数据的本地特征平均值,并对所述本地特征平均值进行加密,获得加密本地特征平均值;
将所述加密本地特征平均值和所述加密本地特征平均值对应的第三本地数据量发送至第二设备,以供所述第二设备对各所述第一设备发送的加密本地特征平均值进行聚合,获得加密全局特征平均值;
接收所述第二设备反馈的所述加密全局特征平均值,并对所述加密全局特征平均值进行解密,获得所述全局特征平均值;
基于所述全局特征平均值,计算所述本地统计特征数据。
6.如权利要求1所述特征选择方法,其特征在于,所述全局相关性***包括全局特征相关性系数,所述待选择特征数据至少对应一待选择特征,
所述基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据的步骤包括:
基于所述全局特征相关性系数,在各所述待选择特征中筛选共线性特征组合;
基于所述共线性特征组合,对所述待选择特征数据进行特征选择,以在所述待选择特征数据中剔除相关性特征数据,获得所述目标特征数据。
7.如权利要求1所述特征选择方法,其特征在于,所述全局相关性系数包括全局标签相关性系数,
所述基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据的步骤包括:
基于所述全局标签相关性系数,在各所述待选择特征中筛选标签相关性特征组合;
基于所述标签相关性特征组合,对所述待选择特征数据进行特征选择,以选取标签相关性高的样本数据,获得所述目标特征数据。
8.一种特征选择装置,其特征在于,所述特征选择装置包括:
加密聚合模块,用于获取待选择特征数据,并基于所述待选择特征数据,与第二设备进行加密聚合交互,获得所述待选择特征数据对应的全局统计特征数据;
计算模块,用于基于所述全局统计特征数据,计算全局相关性系数;
特征选择模块,用于基于所述全局相关性系数,对所述待选择特征数据进行特征选择,获得目标特征数据。
9.一种特征选择设备,其特征在于,所述特征选择设备包括:存储器、处理器以及存储在存储器上的用于实现所述特征选择方法的程序,
所述存储器用于存储实现特征选择方法的程序;
所述处理器用于执行实现所述特征选择方法的程序,以实现如权利要求1至7中任一项所述特征选择方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现特征选择方法的程序,所述实现特征选择方法的程序被处理器执行以实现如权利要求1至7中任一项所述特征选择方法的步骤。
CN202010891722.6A 2020-08-27 2020-08-27 特征选择方法、装置、设备及可读存储介质 Active CN112001452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010891722.6A CN112001452B (zh) 2020-08-27 2020-08-27 特征选择方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010891722.6A CN112001452B (zh) 2020-08-27 2020-08-27 特征选择方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112001452A true CN112001452A (zh) 2020-11-27
CN112001452B CN112001452B (zh) 2021-08-27

Family

ID=73464720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010891722.6A Active CN112001452B (zh) 2020-08-27 2020-08-27 特征选择方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112001452B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560105A (zh) * 2021-02-19 2021-03-26 支付宝(杭州)信息技术有限公司 保护多方数据隐私的联合建模方法及装置
CN114996749A (zh) * 2022-08-05 2022-09-02 蓝象智联(杭州)科技有限公司 一种用于联邦学习的特征过滤方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392319A (zh) * 2017-07-20 2017-11-24 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及***
CN108629193A (zh) * 2018-04-26 2018-10-09 成都大象分形智能科技有限公司 一种针对人工神经网络模型的加密保护***及方法
CN109871702A (zh) * 2019-02-18 2019-06-11 深圳前海微众银行股份有限公司 联邦模型训练方法、***、设备及计算机可读存储介质
CN110113338A (zh) * 2019-05-08 2019-08-09 北京理工大学 一种基于特征融合的加密流量特征提取方法
CN110443378A (zh) * 2019-08-02 2019-11-12 深圳前海微众银行股份有限公司 联邦学习中特征相关性分析方法、装置及可读存储介质
CN110516879A (zh) * 2019-08-29 2019-11-29 京东城市(北京)数字科技有限公司 跨平台的建模方法、***和装置
CN110601814A (zh) * 2019-09-24 2019-12-20 深圳前海微众银行股份有限公司 联邦学习数据加密方法、装置、设备及可读存储介质
CN110751222A (zh) * 2019-10-25 2020-02-04 中国科学技术大学 基于cnn和lstm的在线加密流量分类方法
CN110807528A (zh) * 2019-10-30 2020-02-18 深圳前海微众银行股份有限公司 特征相关性计算方法、设备及计算机可读存储介质
CN111079939A (zh) * 2019-11-28 2020-04-28 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置
US10685159B2 (en) * 2018-06-27 2020-06-16 Intel Corporation Analog functional safety with anomaly detection
CN111402095A (zh) * 2020-03-23 2020-07-10 温州医科大学 一种基于同态加密联邦学习来检测学生行为与心理的方法
US20200228313A1 (en) * 2019-12-13 2020-07-16 TripleBlind, Inc. Systems and methods for encrypting data and algorithms

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392319A (zh) * 2017-07-20 2017-11-24 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及***
CN108629193A (zh) * 2018-04-26 2018-10-09 成都大象分形智能科技有限公司 一种针对人工神经网络模型的加密保护***及方法
US10685159B2 (en) * 2018-06-27 2020-06-16 Intel Corporation Analog functional safety with anomaly detection
CN109871702A (zh) * 2019-02-18 2019-06-11 深圳前海微众银行股份有限公司 联邦模型训练方法、***、设备及计算机可读存储介质
CN110113338A (zh) * 2019-05-08 2019-08-09 北京理工大学 一种基于特征融合的加密流量特征提取方法
CN110443378A (zh) * 2019-08-02 2019-11-12 深圳前海微众银行股份有限公司 联邦学习中特征相关性分析方法、装置及可读存储介质
CN110516879A (zh) * 2019-08-29 2019-11-29 京东城市(北京)数字科技有限公司 跨平台的建模方法、***和装置
CN110601814A (zh) * 2019-09-24 2019-12-20 深圳前海微众银行股份有限公司 联邦学习数据加密方法、装置、设备及可读存储介质
CN110751222A (zh) * 2019-10-25 2020-02-04 中国科学技术大学 基于cnn和lstm的在线加密流量分类方法
CN110807528A (zh) * 2019-10-30 2020-02-18 深圳前海微众银行股份有限公司 特征相关性计算方法、设备及计算机可读存储介质
CN111079939A (zh) * 2019-11-28 2020-04-28 支付宝(杭州)信息技术有限公司 基于数据隐私保护的机器学习模型特征筛选方法及装置
US20200228313A1 (en) * 2019-12-13 2020-07-16 TripleBlind, Inc. Systems and methods for encrypting data and algorithms
CN111402095A (zh) * 2020-03-23 2020-07-10 温州医科大学 一种基于同态加密联邦学习来检测学生行为与心理的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KRISHNA PILLUTLA等: "Robust Aggregation for Federated Learning", 《ARXIV》 *
王健宗 等: "联邦学习算法综述", 《大数据》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560105A (zh) * 2021-02-19 2021-03-26 支付宝(杭州)信息技术有限公司 保护多方数据隐私的联合建模方法及装置
CN113821827A (zh) * 2021-02-19 2021-12-21 支付宝(杭州)信息技术有限公司 保护多方数据隐私的联合建模方法及装置
CN113821827B (zh) * 2021-02-19 2024-04-19 支付宝(杭州)信息技术有限公司 保护多方数据隐私的联合建模方法及装置
CN114996749A (zh) * 2022-08-05 2022-09-02 蓝象智联(杭州)科技有限公司 一种用于联邦学习的特征过滤方法
CN114996749B (zh) * 2022-08-05 2022-11-25 蓝象智联(杭州)科技有限公司 一种用于联邦学习的特征过滤方法

Also Published As

Publication number Publication date
CN112001452B (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN111598254B (zh) 联邦学习建模方法、设备及可读存储介质
CN110245510B (zh) 用于预测信息的方法和装置
WO2020248537A1 (zh) 基于联邦学习的模型参数的确定方法及装置
US20190147461A1 (en) Methods and apparatus to estimate total audience population distributions
CN112001452B (zh) 特征选择方法、装置、设备及可读存储介质
CN113627085B (zh) 横向联邦学习建模优化方法、设备、介质
US8712047B2 (en) Visual universal decryption apparatus and methods
US20170091794A1 (en) Methods and apparatus to determine ratings data from population sample data having unreliable demographic classifications
CN112785002A (zh) 模型构建优化方法、设备、介质及计算机程序产品
CN112861939A (zh) 特征选择方法、设备、可读存储介质及计算机程序产品
Krishnamoorthi et al. A selective image encryption based on square-wave shuffling with orthogonal polynomials transformation suitable for mobile devices
CN107105226B (zh) 一种视频质量评价装置
CN111898765A (zh) 特征分箱方法、装置、设备及可读存储介质
CN111291273A (zh) 推荐***优化方法、装置、设备及可读存储介质
CN112328962A (zh) 矩阵运算优化方法、装置、设备和可读存储介质
JP2023114996A (ja) 相関係数取得方法、装置、電子機器および記憶媒体
CN111523679A (zh) 特征分箱方法、设备及可读存储介质
CN115618380A (zh) 数据处理方法、装置、设备和介质
CN110634173A (zh) 图片标记信息的添加方法、装置、电子设备及可读介质
CN114638274A (zh) 特征选择方法、设备、可读存储介质及计算机程序产品
CN116432040B (zh) 基于联邦学习的模型训练方法、装置、介质以及电子设备
CN110351014B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN114254370B (zh) 基于多方安全隐私计算提升交易匹配度的方法及装置
US8687011B2 (en) Techniques for efficient sampling for image effects
CN114339319B (zh) 一种视频推送方法、装置、视频推送服务器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant