CN113824546B - 用于生成信息的方法和装置 - Google Patents
用于生成信息的方法和装置 Download PDFInfo
- Publication number
- CN113824546B CN113824546B CN202010567116.9A CN202010567116A CN113824546B CN 113824546 B CN113824546 B CN 113824546B CN 202010567116 A CN202010567116 A CN 202010567116A CN 113824546 B CN113824546 B CN 113824546B
- Authority
- CN
- China
- Prior art keywords
- feature
- division
- point
- gradient information
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 75
- 238000004364 calculation method Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 230000015654 memory Effects 0.000 claims description 19
- 239000012634 fragment Substances 0.000 claims description 9
- 238000005192 partition Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/008—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/90—Buffering arrangements
- H04L49/9057—Arrangements for supporting packet reassembly or resequencing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了用于生成信息的方法和装置,涉及人工智能领域。具体的一种实现方案包括:根据样本标签和当前模型针对样本的预测信息,得到样本的梯度信息;基于上述梯度信息,从本端所持有的特征中确定第一特征及对应的最优分割点;将采用同态加密算法得到的上述梯度信息的密文发送给特征提供端;接收上述特征提取端发送的第二特征及对应的最优分割点,其中,上述第二特征及对应的最优分割点是上述特征提供端基于上述梯度信息的密文以及多方安全计算从所持有的特征中确定的;基于与上述特征提供端之间的多方安全计算,从上述第一特征对应的最优分割点和第二特征对应的最优分割点中确定最终分割点。该实施方式提高了信息安全。
Description
技术领域
本公开实施例涉及计算机技术领域,具体涉及人工智能技术。
背景技术
机器学习所需要的数据往往会涉及到多个领域。由于单个数据拥有方所持有的数据可能是不完整的,为了得到预测效果更好的模型,通常需要多个数据拥有方的进行合作,来进行模型的联合训练。联邦学习是一种分布式机器学习技术,目标是在保证数据隐私安全的基础上,实现联合建模,打破数据孤岛,提升模型效果。在联邦学习中,特征信息与标签分布在不同的数据拥有方。对于树模型而言,由于需要联合计算最优分割点,因此,会不可避免泄露信息。
发明内容
本公开提供了一种用于生成信息的方法、装置、设备以及存储介质。
根据本公开的第一方面,本公开实施例提供了一种用于生成信息的方法,应用于标签提供端,包括:根据样本标签和当前模型针对样本的预测信息,得到样本的梯度信息;基于上述梯度信息,从本端所持有的特征中确定第一特征及对应的最优分割点;将采用同态加密算法得到的上述梯度信息的密文发送给特征提供端;接收上述特征提供端发送的第二特征及对应的最优分割点,其中,上述第二特征及对应的最优分割点是上述特征提供端基于上述梯度信息的密文以及多方安全计算从所持有的特征中确定的;基于与上述特征提供端之间的多方安全计算,从上述第一特征对应的最优分割点和第二特征对应的最优分割点中确定最终分割点。
根据本公开的第二方面,本公开实施例提供了一种用于生成信息的装置,部分设置于标签提供端,包括:第一确定单元,被配置成根据样本标签和当前模型针对样本的预测信息,得到样本的梯度信息;第二确定单元,被配置成基于上述梯度信息,从本端所持有的特征中确定第一特征及对应的最优分割点;发送单元,被配置成将采用同态加密算法得到的上述梯度信息的密文发送给特征提供端;接收单元,被配置成接收上述特征提供端发送的第二特征及对应的最优分割点,其中,上述第二特征及对应的最优分割点是上述特征提供端基于上述梯度信息的密文以及多方安全计算从所持有的特征中确定的;生成单元,被配置成基于与上述特征提供端之间的多方安全计算,从上述第一特征对应的最优分割点和第二特征对应的最优分割点中确定最终分割点。
根据本公开的第三方面,本公开实施例提供了一种电子设备,其特征在于,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如第一方面中任一项上述的方法。
根据本公开的第四方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,上述计算机指令用于使上述计算机执行如第一方面中任一项上述的方法。
根据本申请的技术在确定最终分割点的过程中,标签提供端和特征提供端之间基于多方安全计算技术进行交互,因此,各端可以最小程度的向对方暴露所持有的数据,从而避免了泄露信息。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请的用于生成信息的方法的一个实施例的流程图;
图2是根据本申请的用于生成信息的方法的一个应用场景的示意图;
图3是根据本申请的用于确定第二特征及对应的最优分割点的方法一个实施例的流程图;
图4是根据本申请的用于生成信息的装置的一个实施例的结构示意图;
图5是用来实现本申请实施例的用于生成信息的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
请参考图1,示出了根据本公开的用于生成信息的方法的一个实施例的流程图100。该用于生成信息的方法,包括以下步骤:
S101,根据样本标签和当前模型针对样本的预测信息,得到样本的梯度信息。
在本实施例中,用于生成信息的方法可以应用于标签提供端。这里,标签提供端可以持有样本的标签和部分特征。标签提供端可以根据样本标签和当前模型针对样本的预测信息,得到各样本的梯度信息。这里,样本的梯度信息可以是基于模型的损失函数得到的。作为示例,标签提供端可以首先计算损失函数的导数。之后,对于各个样本,可以根据该样本的样本标签、当前模型针对该样本的预测信息,以及损失函数的导数,计算得到梯度信息。可以理解的是,当前模型针对样本的预测信息可以是用于联合训练模型的多个参与方联合生成的。
实践中,在模型训练的过程中,往往要对模型进行多轮模型。当前模型可以是指上一轮训练得到的模型。联合训练的模型可以是树模型。树模型是一种有监督的机器学习模型,例如,树模型可以是二叉树等等。作为示例,用于实现树模型的算法可以包括GBDT(Gradient Boosting Decision Tree,梯度提升决策树)等算法。树模型可以包括多个节点,每个节点可以对应有位置标识,该位置标识可以用于标识该节点在树模型中的位置,例如,可以为该节点的编号。多个节点可以包括叶子节点和非叶子节点。树模型中不能够向下***的节点称为叶子节点。叶子节点对应有叶子值,每个叶子值可以表示一种预测结果。树模型中能够向下***的节点称为非叶子节点。非叶子节点可以包括根节点、以及除去叶子节点和根节点以外的其它节点。非叶子节点可以对应有分割点,分割点可以用于选择预测路径。
实际的应用场景中,用于联合训练模型的参与方可以包括标签提供端和特征提供端。标签提供端可以持有样本的标签和部分特征。特征提供端可以持有样本的部分特征。以一个场景为例,在本场景中,标签提供端可以是信贷机构,信贷机构持有用户信贷风险的标签(例如,高、中、低等等)和部分特征(例如,用户年龄、性别等等)。特征提供端可以是大数据公司,大数据公司可以持有用户的部分特征(例如,学历、年收入等等)。在联合训练模型的过程中,为了保护数据隐私,信贷机构不能向大数据公司提供其所持有的标签和特征。大数据公司也不能向信贷机构提供其所持有特征。可以理解的是,实际联合训练中,可以包括一个或多个特征提供端。
在本实施例的一些可选的实现方式中,样本的梯度信息可以包括一阶梯度和二阶梯度。作为示例,标签提供端可以首先计算损失函数的一阶导数和二阶导数。之后,对于各个样本,可以根据该样本的样本标签、当前模型针对该样本的预测信息,以及损失函数的一阶导数和二阶导数,计算得到一阶梯度和二阶梯度。通过本实现方式,可以得到包括各个样本包括一阶梯度和二阶梯度的梯度信息,为后续计算分割增益提供了条件。
S102,基于梯度信息,从本端所持有的特征中确定第一特征及对应的最优分割点。
在本实施例中,根据S101中得到的梯度信息,标签提供端可以通过各种方式从本端所持有的特征中确定第一特征及对应的最优分割点。作为一个示例,对于本端所持有的各特征,由于标签提供端持有本端特征所对应的所有特征数据,所以,标签提供端可以确定各特征对应的所有可能的分割点。这样,标签提供端可以以明文的形式分别计算以各种特征对应的各分割点将样本划分子集时得到的分割增益,并根据分割增益从多种特征中选取一种特征作为第一特征,并确定第一特征对应的最优分割点。例如,可以选取计算得到的分割增益中最大分割增益对应的特征作为第一特征,并将最大分割增益对应的分割点作为最优分割点。这里,分割增益可以是基于梯度信息计算得到的。作为示例,可以通过以下公式计算分割增益score:
其中,GL表示划分后左节点中样本的一阶梯度之和,HL表示划分后左节点中样本的二阶梯度之和,GR表示划分后右节点中样本的一阶梯度之和,HR表示划分后右节点中样本的二阶梯度之和,G表示未划分时样本的一阶梯度之和,H表示未划分时样本的二阶梯度之和,λ表示正则项系数。
在本实施例的一些可选的实现方式中,上述S102可以具体如下进行:
首先,对于本端所持有的各特征对应的各分割点,根据梯度信息计算各分割点对应的分割增益。
在本实现方式中,标签提供端首先可以确定所持有每一种特征的所有分割方式对应分割点。对于每一种特征的对应的每一个分割点,标签提供端可以根据梯度信息计算分割点对应的分割增益。举例来说,对于某一种特征的某一个分割点,标签提供端可以计算基于该分割点划分的左节点中所有样本的一阶梯度之和及二阶梯度之和,还可以计算右节点中所有样本的一阶梯度之和及二阶梯度之和。之和,基于左节点的一阶梯度之和及二阶梯度之和、右节点的一阶梯度之和及二阶梯度之和计算该分割点对应的分割增益。
然后,基于各分割点对应的分割增益的比较结果,从本端所持有的特征中确定第一特征及对应的最优分割点。
在本实现方式中,特征提供端可以基于各分割点对应的分割增益的比较结果,从本端所持有的特征中确定一个特征作为第一特征及对应的最优分割点。举例来说,可以采用贪心法选取计算得到的分割增益中最大分割增益对应的特征作为第一特征,并将最大分割增益对应的分割点作为最优分割点。通过本实现方式,标签提供端可以根据本端所持有的各个特征对应的各个分割点的分割增益选取第一特征及对应的最优分割点,从而可以选取出标签提供端所持有特征中分割增益最大的特征及对应的最优分割点。
S103,将采用同态加密算法得到的梯度信息的密文发送给特征提供端。
在本实施例中,标签提供端首先可以采用同态加密算法对S101中得到的梯度信息进行加密,得到梯度信息的密文。之后,标签提供端可以将得到的梯度信息的密文发送给特征提供端。同态加密是(Homomorphic Encryption)是一种加密技术。对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。同态加密算法可以包括加法同态加密算法和乘法同态加密算法。
S104,接收特征提供端发送的第二特征及对应的最优分割点。
在本实施例中,标签提供端可以接收特征提供端发送的第二特征及对应的最优分割点。这里,第二特征及对应的最优分割点可以是特征提供端基于梯度信息的密文以及多方安全计算从所持有的特征中确定的。作为示例,特征提供端接收到标签提供端发送的梯度信息的密文之后,可以根据梯度信息的密文以及与标签提供端之间的多方安全计算,从所持有的特征中确定第二特征及对应的最优分割点。例如,特征提供端在计算分割增益和比较分割增益时,采用多方安全计算。这样,特征提供端不会向标签提供端提供明文的分割增益,从而避免了标签提供端基于明文的分割增益推导出特征提供端所持有的特征的数据,保护了特征提供端的数据安全。
S105,基于与特征提供端之间的多方安全计算,从第一特征对应的最优分割点和第二特征对应的最优分割点中确定最终分割点。
在本实施例中,标签提供端可以基于与特征提供端之间的多方安全计算,从第一特征对应的最优分割点和第二特征对应的最优分割点中确定最终分割点。举例来说,假设将基于第一特征对应的最优分割点划分得到的分割增益作为第一分割增益,将基于第二特征对应的最优分割点划分得到分割增益作为第二分割增益,标签提供端和特征提供端可以利用多方安全计算的方式计算第一分割增益和第二分割增益,以及比较第一分割增益和第二分割增益的大小。之后,标签提供端可以基于第一分割增益和第二分割增益的比较结果,确定最终分割点。例如,可以选取第一分割增益和第二分割增益中较大值对应的分割点作为最终分割点。
继续参见图2,图2是根据本实施例的用于生成信息的方法的应用场景的一个示意图。在图2应用场景中,标签提供端A为信贷机构,信贷机构持有用户信贷风险的标签和部分特征。标签提供端A首先根据样本标签和当前模型针对样本的预测信息,生成样本的梯度信息。其次,标签提供端A基于梯度信息从本端所持有的特征中确定第一特征及对应的最优分割点split_a。之后,标签提供端A将采用同态加密算法得到的梯度信息的密文发送给特征提供端B。然后,标签提供端A接收特征提供端B发送的第二特征及对应的最优分割点split_b,其中,第二特征及对应的最优分割点split_b是特征提供端B基于梯度信息的密文以及多方安全计算从所持有的特征中确定的。最后,标签提供端A基于与特征提供端B之间的多方安全计算,从第一特征对应的最优分割点split_a和第二特征对应的最优分割点split_b中确定最终分割点。
本公开的上述实施例提供的方法在确定最终分割点的过程中,标签提供端和特征提供端之间基于多方安全计算技术进行交互,因此,各端可以最小程度的向对方暴露所持有的数据,从而避免了泄露信息。
进一步参考图3,其示出了用于确定第二特征及对应的最优分割点的方法一个实施例的流程300。该用于确定第二特征及对应的最优分割点的流程300,包括以下步骤:
S301,对于所持有的各特征对应的各分割点,确定基于各分割点得到的左节点和右节点中样本的梯度信息的密文。
在本实施例中,用于确定第二特征及对应的最优分割点的方法可以应用于特征提供端。这里,特征提供端可以持有样本的部分特征。对于所持有的每一种特征对应的每一个分割点,特征提供端可以确定基于该分割点对节点进行分割后,得到的左节点和右节点中样本的梯度信息的密文。
S302,基于与标签提供端之间的多方安全计算,执行步骤S3021~S3023。
在本实施例中,特征提供端可以基于与标签提供端之间的多方安全计算,执行以下步骤S3021~S3023。
S3021,将基于各分割点得到的左节点和右节点中样本的梯度信息的密文之和转化为分片。
在本实施例中,特征提供端首先可以基于各分割点计算左节点的梯度信息的密文之和,例如,可以计算基于该分割点划分的左节点中所有样本的一阶梯度的密文之和及二阶梯度的密文之和,还可以计算右节点中所有样本的一阶梯度的密文之和及二阶梯度的密文之和。作为示例,可以采用同态密文加法的方式计算上述各种密文之和。之后,特征提供端可以基于多方安全计算技术将左节点中所有样本的一阶梯度的密文之和及二阶梯度的密文之和,以及右节点中所有样本的一阶梯度的密文之和及二阶梯度的密文之和,转化为分片。举例来说,可以基于算数电路(Arithmetic Circuit)将密文之和转化为分片。以参与计算的参与方为两方为例,算数电路可以实现计算双方基于数据的加法分片计算。比如,将数据x随机拆分为x0:=x-r和x1:=r,其中,r为随机数。其中,“:=”表示赋值的意思。参与计算的双方中一方持有x0,另一方持有x1。由于任一分片的持方都没有对应数据的所有分片,所以除结果外没有任何信息泄露。
在本实施例的一些可选的实现方式中,S3021还可以具体如下进行:采用加法同态加密算法,将各分割点得到的左节点和右节点中样本的梯度信息的密文之和进行分片。
在本实现方式中,特征提供端可以采用加法同态加密算法,将各分割点得到的左节点和右节点中样本的梯度信息的密文之和进行分片。举例来说,可以采用加法同态加密算法将左节点中所有样本的一阶梯度的密文之和及二阶梯度的密文之和,以及右节点中所有样本的一阶梯度的密文之和及二阶梯度的密文之和,转化为分片。通过本实现方式,可以采用加法同态加密算法对数据进行分片。
S3022,基于分片计算各分割点对应的分割增益。
在本实施例中,特征提供端和标签提供端可以通过多方安全计算,基于S3021得到的分片来联合计算各分割点对应的分割点增益。举例来说,可以采用同态密文的方式计算分割增益。
S3023,确定各分割点对应的分割增益的比较结果。
在本实施例中,利用与标签提供端之间的多方安全计算,特征提供端可以确定各分割点对应的分割增益的比较结果。基于多方安全计算的方式进行数据的比较,可以保证数据的安全。举例来说,基于多方安全计算,可以通过以下方式比较两个数据的大小,以要比较的数据为x和y为例,通过以上分片方式将数据进行分片,对于x=x0+x1和y=y0+y1,双方先计算z0=x0-y0和z1=x1-y1,双方联合将z=z0+z1转化为混淆电路z',将z'的符号位(最高位)恢复为明文从而得到x和y大小比较的结果。作为示例,可以通过以下方式将z转化为z',通过不经意传输(Oblivious Transfer)将z0和z1转化为混淆电路z'0和z1',双方通过混淆电路联合计算z'=z'0+z1'。
S303,基于比较结果,从所持有特征中确定第二特征及对应的最优分割点。
在本实现方式中,特征提供端可以根据比较结果,从所持有特征中确定一个特征作为第二特征及确定对应的最优分割点。举例来说,可以采用贪心法选取计算得到的分割增益中最大分割增益对应的特征作为第二特征,并将最大分割增益对应的分割点作为最优分割点。
本公开的上述实施例提供的方法在确定第二特征及对应的最优分割点的过程中,标签提供端和特征提供端之间基于多方安全计算技术进行交互,因此,各端可以最小程度的向对方暴露所持有的数据,从而避免了泄露信息。
进一步参考图4,作为对上述各图所示方式的实现,本公开提供了一种用于生成信息的装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以部分设置于标签提供端中。
如图4所示,本实施例的用于生成信息的装置400包括:第一确定单元401、第二确定单元402、发送单元403、接收单元404和生成单元405。其中,第一确定单元401被配置成根据样本标签和当前模型针对样本的预测信息,得到样本的梯度信息;第二确定单元402被配置成基于上述梯度信息,从本端所持有的特征中确定第一特征及对应的最优分割点;发送单元403被配置成将采用同态加密算法得到的上述梯度信息的密文发送给特征提供端;接收单元404被配置成接收上述特征提供端发送的第二特征及对应的最优分割点,其中,上述第二特征及对应的最优分割点是上述特征提供端基于上述梯度信息的密文以及多方安全计算从所持有的特征中确定的;生成单元405被配置成基于与上述特征提供端之间的多方安全计算,从上述第一特征对应的最优分割点和第二特征对应的最优分割点中确定最终分割点。
在本实施例中,用于生成信息的装置400的第一确定单元401、第二确定单元402、发送单元403、接收单元404和生成单元405的具体处理及其所带来的技术效果可分别参考图1对应实施例中S101、S102、S103、S104和S105的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述第二确定单元402进一步被配置成:对于本端所持有的各特征对应的各分割点,根据上述梯度信息计算各分割点对应的分割增益;基于各分割点对应的分割增益的比较结果,从本端所持有的特征中确定第一特征及对应的最优分割点。
在本实施例的一些可选的实现方式中,上述装置400还包括配置于特征提供端的第三确定单元(图中未示出),上述第三确定单元被配置成确定上述第二特征及对应的最优分割点,上述第三确定单元包括:确定子单元(图中未示出),被配置成对于所持有的各特征对应的各分割点,确定基于各分割点得到的左节点和右节点中样本的梯度信息的密文;执行单元(图中未示出),被配置成基于与上述标签提供端之间的多方安全计算,执行预设步骤,上述执行单元包括:转化单元(图中未示出),被配置成将基于各分割点得到的左节点和右节点中样本的梯度信息的密文之和转化为分片;计算单元(图中未示出),被配置成基于分片计算各分割点对应的分割增益;结果确定单元(图中未示出),被配置成确定各分割点对应的分割增益的比较结果;分割点确定单元(图中未示出),被配置成基于比较结果,从所持有特征中确定第二特征及对应的最优分割点。
在本实施例的一些可选的实现方式中,上述转化单元进一步被配置成:采用加法同态加密算法,将各分割点得到的左节点和右节点中样本的梯度信息的密文之和进行分片。
在本实施例的一些可选的实现方式中,上述样本的梯度信息包括一阶梯度和二阶梯度。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的用于生成信息的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的用于生成信息的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的用于生成信息的方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的用于生成信息的方法对应的程序指令/模块(例如,附图4所示的第一确定单元401、第二确定单元402、发送单元403、接收单元404和生成单元405)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的用于生成信息的方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据用于生成信息的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至用于生成信息的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用于生成信息的方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与用于生成信息的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,在确定最终分割点的过程中,标签提供端和特征提供端之间基于多方安全计算技术进行交互,因此,各端可以最小程度的向对方暴露所持有的数据,从而避免了泄露信息。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种用于生成信息的方法,应用于标签提供端,包括:
根据样本标签和当前模型针对样本的预测信息,得到样本的梯度信息;
基于所述梯度信息,从本端所持有的特征中确定第一特征及对应的最优分割点;
将采用同态加密算法得到的所述梯度信息的密文发送给特征提供端;
接收所述特征提供端发送的第二特征及对应的最优分割点,其中,所述第二特征及对应的最优分割点是所述特征提供端通过以下方式确定的:对于所持有的各特征对应的各分割点,确定基于各分割点得到的左节点和右节点中样本的梯度信息的密文;基于与所述标签提供端之间的多方安全计算,执行以下步骤:将基于各分割点得到的左节点和右节点中样本的梯度信息的密文之和转化为分片;基于分片计算各分割点对应的分割增益;确定各分割点对应的分割增益的比较结果;基于比较结果,从所持有特征中确定第二特征及对应的最优分割点;
基于与所述特征提供端之间的多方安全计算,将基于所述第一特征对应的最优分割点划分得到的分割增益作为第一分割增益,基于所述第二特征对应的最优分割点划分得到分割增益作为第二分割增益;基于所述第一分割增益和所述第二分割增益的比较结果,确定最终分割点。
2.根据权利要求1所述的方法,其中,所述基于所述梯度信息,从本端所持有的特征中确定第一特征及对应的最优分割点,包括:
对于本端所持有的各特征对应的各分割点,根据所述梯度信息计算各分割点对应的分割增益;
基于各分割点对应的分割增益的比较结果,从本端所持有的特征中确定第一特征及对应的最优分割点。
3.根据权利要求1所述的方法,其中,所述将基于各分割点得到的左节点和右节点中样本的梯度信息的密文之和转化为分片,包括:
采用加法同态加密算法,将各分割点得到的左节点和右节点中样本的梯度信息的密文之和进行分片。
4.根据权利要求1所述的方法,其中,所述样本的梯度信息包括一阶梯度和二阶梯度。
5.一种用于生成信息的装置,部分设置于标签提供端,包括:
第一确定单元,被配置成根据样本标签和当前模型针对样本的预测信息,得到样本的梯度信息;
第二确定单元,被配置成基于所述梯度信息,从本端所持有的特征中确定第一特征及对应的最优分割点;
发送单元,被配置成将采用同态加密算法得到的所述梯度信息的密文发送给特征提供端;
接收单元,被配置成接收所述特征提供端发送的第二特征及对应的最优分割点,其中,所述第二特征及对应的最优分割点是基于配置于所述特征提供端的第三确定单元确定的,所述第三确定单元包括:确定子单元,被配置成对于所持有的各特征对应的各分割点,确定基于各分割点得到的左节点和右节点中样本的梯度信息的密文;执行单元,被配置成基于与所述标签提供端之间的多方安全计算,执行预设步骤,所述执行单元包括:转化单元,被配置成将基于各分割点得到的左节点和右节点中样本的梯度信息的密文之和转化为分片;计算单元,被配置成基于分片计算各分割点对应的分割增益;结果确定单元,被配置成确定各分割点对应的分割增益的比较结果;分割点确定单元,被配置成基于比较结果,从所持有特征中确定第二特征及对应的最优分割点;
生成单元,被配置成基于与所述特征提供端之间的多方安全计算,将基于所述第一特征对应的最优分割点划分得到的分割增益作为第一分割增益,基于所述第二特征对应的最优分割点划分得到分割增益作为第二分割增益;基于所述第一分割增益和所述第二分割增益的比较结果,确定最终分割点。
6.根据权利要求5所述的装置,其中,所述第二确定单元进一步被配置成:
对于本端所持有的各特征对应的各分割点,根据所述梯度信息计算各分割点对应的分割增益;
基于各分割点对应的分割增益的比较结果,从本端所持有的特征中确定第一特征及对应的最优分割点。
7.根据权利要求5所述的装置,其中,所述转化单元进一步被配置成:
采用加法同态加密算法,将各分割点得到的左节点和右节点中样本的梯度信息的密文之和进行分片。
8.根据权利要求5所述的装置,其中,所述样本的梯度信息包括一阶梯度和二阶梯度。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010567116.9A CN113824546B (zh) | 2020-06-19 | 2020-06-19 | 用于生成信息的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010567116.9A CN113824546B (zh) | 2020-06-19 | 2020-06-19 | 用于生成信息的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113824546A CN113824546A (zh) | 2021-12-21 |
CN113824546B true CN113824546B (zh) | 2024-04-02 |
Family
ID=78911609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010567116.9A Active CN113824546B (zh) | 2020-06-19 | 2020-06-19 | 用于生成信息的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113824546B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101573413B1 (ko) * | 2014-11-28 | 2015-12-01 | 건국대학교 산학협력단 | 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법 |
CN108536650A (zh) * | 2018-04-03 | 2018-09-14 | 北京京东尚科信息技术有限公司 | 生成梯度提升树模型的方法和装置 |
CN108712260A (zh) * | 2018-05-09 | 2018-10-26 | 曲阜师范大学 | 云环境下保护隐私的多方深度学习计算代理方法 |
CN109299728A (zh) * | 2018-08-10 | 2019-02-01 | 深圳前海微众银行股份有限公司 | 联邦学习方法、***及可读存储介质 |
CN109684855A (zh) * | 2018-12-17 | 2019-04-26 | 电子科技大学 | 一种基于隐私保护技术的联合深度学习训练方法 |
CN110728687A (zh) * | 2019-10-15 | 2020-01-24 | 卓尔智联(武汉)研究院有限公司 | 文件图像分割方法、装置、计算机设备和存储介质 |
WO2020029590A1 (zh) * | 2018-08-10 | 2020-02-13 | 深圳前海微众银行股份有限公司 | 基于联邦训练的样本预测方法、装置及存储介质 |
WO2020034751A1 (zh) * | 2018-08-14 | 2020-02-20 | 阿里巴巴集团控股有限公司 | 多方安全计算方法及装置、电子设备 |
CN110995737A (zh) * | 2019-12-13 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 联邦学习的梯度融合方法及装置和电子设备 |
CN110990857A (zh) * | 2019-12-11 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 保护隐私安全的多方联合进行特征评估的方法及装置 |
CN111144576A (zh) * | 2019-12-13 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 模型训练方法、装置和电子设备 |
CN111160573A (zh) * | 2020-04-01 | 2020-05-15 | 支付宝(杭州)信息技术有限公司 | 保护数据隐私的双方联合训练业务预测模型的方法和装置 |
-
2020
- 2020-06-19 CN CN202010567116.9A patent/CN113824546B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101573413B1 (ko) * | 2014-11-28 | 2015-12-01 | 건국대학교 산학협력단 | 주성분 분석을 기반으로 하는 침입 탐지 장치 및 그 방법 |
CN108536650A (zh) * | 2018-04-03 | 2018-09-14 | 北京京东尚科信息技术有限公司 | 生成梯度提升树模型的方法和装置 |
CN108712260A (zh) * | 2018-05-09 | 2018-10-26 | 曲阜师范大学 | 云环境下保护隐私的多方深度学习计算代理方法 |
CN109299728A (zh) * | 2018-08-10 | 2019-02-01 | 深圳前海微众银行股份有限公司 | 联邦学习方法、***及可读存储介质 |
WO2020029590A1 (zh) * | 2018-08-10 | 2020-02-13 | 深圳前海微众银行股份有限公司 | 基于联邦训练的样本预测方法、装置及存储介质 |
WO2020034751A1 (zh) * | 2018-08-14 | 2020-02-20 | 阿里巴巴集团控股有限公司 | 多方安全计算方法及装置、电子设备 |
CN109684855A (zh) * | 2018-12-17 | 2019-04-26 | 电子科技大学 | 一种基于隐私保护技术的联合深度学习训练方法 |
CN110728687A (zh) * | 2019-10-15 | 2020-01-24 | 卓尔智联(武汉)研究院有限公司 | 文件图像分割方法、装置、计算机设备和存储介质 |
CN110990857A (zh) * | 2019-12-11 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 保护隐私安全的多方联合进行特征评估的方法及装置 |
CN110995737A (zh) * | 2019-12-13 | 2020-04-10 | 支付宝(杭州)信息技术有限公司 | 联邦学习的梯度融合方法及装置和电子设备 |
CN111144576A (zh) * | 2019-12-13 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 模型训练方法、装置和电子设备 |
CN111160573A (zh) * | 2020-04-01 | 2020-05-15 | 支付宝(杭州)信息技术有限公司 | 保护数据隐私的双方联合训练业务预测模型的方法和装置 |
Non-Patent Citations (2)
Title |
---|
基于联邦学习的通信诈骗识别模型的实现;陈国润;母美荣;张蕊;孙丹;钱栋军;;电信科学(S1);全文 * |
联邦学习模型在涉密数据处理中的应用;贾延延;张昭;冯键;王春凯;;中国电子科学研究院学报(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113824546A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102476902B1 (ko) | 프라이버시 집합의 교집합 획득 방법, 장치, 기기 및 저장 매체 | |
WO2021068444A1 (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
AU2021204543B2 (en) | Digital signature method, signature information verification method, related apparatus and electronic device | |
CN113098691B (zh) | 数字签名方法、签名信息的验证方法、相关装置及电子设备 | |
CN112765616A (zh) | 多方安全计算方法、装置、电子设备和存储介质 | |
CN109359476B (zh) | 一种隐藏输入的两方模式匹配方法及装置 | |
CN113762328B (zh) | 基于联邦学习的模型训练方法、装置、设备以及存储介质 | |
CN113407976B (zh) | 数字签名方法、签名信息的验证方法、相关装置及电子设备 | |
CN114186256B (zh) | 神经网络模型的训练方法、装置、设备和存储介质 | |
CN111612388A (zh) | 合并目标订单的方法和装置 | |
CN115664747A (zh) | 加密方法和装置 | |
CN112615852A (zh) | 数据的处理方法、相关装置及计算机程序产品 | |
CN113722739B (zh) | 梯度提升树模型的生成方法、装置、电子设备和存储介质 | |
US20170149907A1 (en) | Identifying an entity associated with an online communication | |
CN113824546B (zh) | 用于生成信息的方法和装置 | |
CN117349685A (zh) | 一种通信数据的聚类方法、***、终端及介质 | |
CN113079010B (zh) | 基于保留格式算法的安全增强方法及装置 | |
CN116389090A (zh) | 数据加密、解密的方法、装置、电子设备和存储介质 | |
CN111046431A (zh) | 数据处理方法、查询方法、装置、电子设备和*** | |
US20230186102A1 (en) | Training method and apparatus for neural network model, device and storage medium | |
CN117743384A (zh) | 一种数据查询方法、装置、设备和存储介质 | |
CN111176610B (zh) | 量子随机数生成方法、装置、电子设备及存储介质 | |
CN113220501B (zh) | 用于数据备份的方法、设备和计算机程序产品 | |
CN116248371A (zh) | 异常消息的识别方法、装置、设备和存储介质 | |
CN114090893A (zh) | 数据查询方法、***、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |