CN110837653A - 标签预测方法、装置以及计算机可读存储介质 - Google Patents
标签预测方法、装置以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110837653A CN110837653A CN201911083212.XA CN201911083212A CN110837653A CN 110837653 A CN110837653 A CN 110837653A CN 201911083212 A CN201911083212 A CN 201911083212A CN 110837653 A CN110837653 A CN 110837653A
- Authority
- CN
- China
- Prior art keywords
- demander
- model
- provider
- parameter
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computer Hardware Design (AREA)
- Finance (AREA)
- Medical Informatics (AREA)
- Accounting & Taxation (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种标签预测方法,包括如下步骤:需求方获取需求方模型更新后的第一参数、需求方预测样本的第一特征量和需求方预测样本的第一曝光量;需求方基于第一参数、第一特征量和第一曝光量,确定需求方模型的第一预测值;需求方获取提供方模型的第二预测值和泊松计算规则确定第二预测值;需求方基于第一预测值、第二预测值和泊松计算规则,确定需求方预测样本的预测标签量。本发明还公开了一种标签预测装置及计算机可读存储介质。本发明通过结合泊松回归实现方案,训练纵向联邦学习模型中的需求方模型和提供方模型,可准确预测到需求方预测样本对应的预测标签量,解决了现有技术中无法预测精确的标签数据的问题。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种标签预测方法、装置以及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。例如,联邦学习是在金融领域的应用非常广泛的一种技术,通过联合不同的参与方进行机器学习的方法,保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。联邦学习中的纵向联邦学习则是在两个参与方的数据集的用户重叠较多而用户特征重叠较少的情况下,把两个参与方的数据集按照纵向(即特征维度)切分,取出双方用户相同而用户特征不完全相同的那部分数据进行训练的方法。
现有技术中的纵向联邦学习场景中,设定A方、B方和C方,合作方B拥有最具商业价值的标签,合作方A拥有B方不具有的某些特征,C方为协调方,取出A方和B方相同但用户特征不完全相同的那部分数据进行联邦学习建模和预测,仅能预测标签数据的结果正确或者错误,无法预测到精确的标签数据。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种标签预测方法、装置及计算机可读存储介质,旨在解决无法预测到精确的数据结果的技术问题。
为实现上述目的,本发明提供一种标签预测方法,所述标签预测方法包括以下步骤:
需求方获取需求方模型更新后的第一参数、需求方预测样本的第一特征量和所述需求方预测样本的第一曝光量;
所述需求方基于所述第一参数、所述第一特征量和所述第一曝光量,确定所述需求方模型的第一预测值;
所述需求方获取提供方模型的第二预测值和泊松计算规则,其中,提供方用于获取所述提供方模型更新后的第二参数以及提供方预测样本的第二特征量,并基于所述第二参数和所述第二特征量,确定所述第二预测值;
所述需求方基于所述第一预测值、所述第二预测值和所述泊松计算规则,确定所述需求方预测样本的预测标签量。
可选地,所述需求方获取需求方模型更新后的第一参数、需求方预测样本的第一特征量和所述需求方预测样本的第一曝光量的步骤之前,还包括:
所述需求方获取所述需求方模型更新前的第三参数、需求方训练样本的第三特征量和所述需求方训练样本的第二曝光量;
所述需求方基于所述第三参数、所述第三特征量和所述第二曝光量,确定所述需求方模型的第三预测值;
所述提供方用于获取所述提供方模型更新前的第四参数和所述提供方训练样本的第四特征量,所述提供方并基于所述第四参数和所述第四特征量,确定所述提供方模型的第四预测值;
所述需求方基于所述第三预测值,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,并且所述提供方基于所述第四预测值,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
可选地,所述所述需求方基于所述第三预测值,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,并且所述提供方基于所述第四预测值,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤包括:
所述需求方获取所述需求方训练样本的标签量、协调方所提供的公共秘钥信息以及所述提供方模型的中间加密量,其中,所述提供方获取所述第四预测值和所述协调方所提供的公共秘钥信息,所述提供方并基于所述第四预测值和所述公共秘钥信息,确定所述中间加密量;
所述需求方基于所述第三预测值、所述标签量和所述中间加密量,确定所述需求方模型的加密残差量;
所述需求方基于所述加密残差量和所述公共秘钥信息,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述加密残差量和所述公共秘钥信息,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
可选地,所述所述需求方基于所述加密残差量和所述公共秘钥信息,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述加密残差量和所述公共秘钥信息,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤包括:
所述需求方基于所述第三特征量、所述加密残差量和所述公共秘钥信息,确定所述需求方模型的第一加密梯度;
所述提供方基于所述第四特征量、所述加密残差量和所述公共秘钥信息,确定所述提供方模型的第二加密梯度;
所述需求方基于所述第一加密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二加密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
可选地,所述所述需求方基于所述第一加密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二加密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤包括:
所述协调方用于获取所述需求方模型的第一加密梯度、所述提供方模型的第二加密梯度以及所述公有秘钥信息对应的私有秘钥信息;
所述协调方用于基于所述第一加密梯度和所述私有秘钥信息,确定所述需求方模型对应的第一解密梯度;
所述协调方用于基于所述第二加密梯度和所述私有秘钥信息,确定所述提供方模型对应的第二解密梯度;
所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
可选地,所述所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤之后,还包括:
所述需求方基于所述第三预测值、所述中间加密量和所述第二曝光量,确定所述需求方模型的加密损失变化量;
所述协调方用于获取所述需求方模型的加密损失变化量,所述协调方并检测所述加密损失变化量是否小于或者等于第一预设阈值;
所述需求方获取需求方模型更新后的第一参数的步骤包括:
若所述加密损失变化量小于或者等于所述第一预设阈值,则所述需求方更新所述需求方模型的参数,所述需求方获取所述第五参数,将所述第五参数作为第一参数,以训练所述需求方模型;
所述提供方用于获取所述提供方模型更新后的第二参数的步骤包括:
若所述加密损失变化量小于或者等于所述第一预设阈值,则所述提供方更新所述提供方模型的参数,所述提供方获取所述第六参数,将所述第六参数作为第二参数,以训练所述提供方模型;
若所述加密损失变化量大于所述第一预设阈值,则所述需求方继续执行所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,所述提供方继续执行所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数的步骤。
可选地,所述所述需求方获取所述需求方模型更新前的第三参数、需求方训练样本的第三特征量和所述需求方训练样本的第二曝光量的步骤之前,还包括:
所述需求方获取所述需求方训练样本,所述提供方获取所述需求方所提供的每次训练样本的训练样本量;
所述需求方基于所述需求方训练样本,确定所述需求方训练样本的第三特征量以及所述需求方训练样本的第二曝光量;
所述提供方用于基于所述训练样本量,确定与所述需求方训练样本相匹配的所述提供方训练样本;
所述提供方用于基于所述提供方训练样本,确定所述提供方训练样本的第四特征量。
可选地,所述所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤之后,还包括:
所述协调方用于获取所述需求方模型的模型训练轮数,并检测所述模型训练轮数是否大于或者等于第二预设阈值;
所述需求方获取需求方模型更新后的第一参数的步骤包括:
若所述模型训练轮数大于或者等于第二预设阈值,则所述需求方更新所述需求方模型的参数,所述需求方获取所述第五参数,将所述第五参数作为第一参数,以训练所述需求方模型;
所述提供方用于获取所述提供方模型更新后的第二参数的步骤包括:
若所述模型训练轮数大于或者等于第二预设阈值,则所述提供方更新所述提供方模型的参数,所述提供方获取所述第六参数,将所述第六参数作为第二参数,以训练所述提供方模型;
若所述模型训练轮数小于第二预设阈值,则所述需求方继续执行所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,所述提供方继续执行所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数的步骤。
此外,为实现上述目的,本发明还提供一种标签预测装置,所述标签预测装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标签预测程序,所述标签预测程序被所述处理器执行时实现如上述的标签预测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有标签预测程序,所述标签预测程序被处理器执行时实现如上述的标签预测方法的步骤。
本发明通过需求方获取需求方模型更新后的第一参数、需求方预测样本的第一特征量和所述需求方预测样本的第一曝光量;所述需求方基于所述第一参数、所述第一特征量和所述第一曝光量,确定所述需求方模型的第一预测值;所述需求方获取提供方模型的第二预测值和泊松计算规则,其中,提供方用于获取所述提供方模型更新后的第二参数以及提供方预测样本的第二特征量,并基于所述第二参数和所述第二特征量,确定所述第二预测值;所述需求方基于所述第一预测值、所述第二预测值和泊松计算规则,确定所述需求方预测样本的预测标签量,通过结合泊松回归实现方案,训练纵向联邦学习模型中的需求方模型和提供方模型,可准确预测到需求方预测样本对应的预测标签量,解决了现有技术中无法预测准确的标签数据的问题,并且采用搭建纵向联邦学习模型的方式,解决了容易泄露终端数据和个人数据隐私的问题。
附图说明
图1是本发明标签预测方法实施例方案涉及的硬件运行环境的标签预测装置结构示意图;
图2为本发明标签预测方法第一实施例的流程示意图;
图3为本发明标签预测方法的预测流程的示意图;
图4为本发明标签预测方法的建模流程的示意图;
图5为本发明标签预测方法的建模流程的示意图;
图6为本发明标签预测方法的建模流程的示意图;
图7为本发明标签预测方法的建模流程的示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的标签预测装置结构示意图。
本发明实施例标签预测装置可以是PC,也可以是智能手机、平板电脑、电子书阅读器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该标签预测装置可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的标签预测装置结构并不构成对标签预测装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及标签预测程序。
在图1所示的标签预测装置中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的标签预测程序。
在本实施例中,标签预测装置包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的标签预测程序,其中,处理器1001调用存储器1005中存储的标签预测程序时,并执行以下操作:
需求方获取需求方模型更新后的第一参数、需求方预测样本的第一特征量和所述需求方预测样本的第一曝光量;
所述需求方基于所述第一参数、所述第一特征量和所述第一曝光量,确定所述需求方模型的第一预测值;
所述需求方获取提供方模型的第二预测值和泊松计算规则,其中,提供方用于获取所述提供方模型更新后的第二参数以及提供方预测样本的第二特征量,并基于所述第二参数和所述第二特征量,确定所述第二预测值;
所述需求方基于所述第一预测值、所述第二预测值和所述泊松计算规则,确定所述需求方预测样本的预测标签量。
进一步地,处理器1001可以调用存储器1005中存储的标签预测程序,还执行以下操作:
所述需求方获取所述需求方模型更新前的第三参数、需求方训练样本的第三特征量和所述需求方训练样本的第二曝光量;
所述需求方基于所述第三参数、所述第三特征量和所述第二曝光量,确定所述需求方模型的第三预测值;
所述提供方用于获取所述提供方模型更新前的第四参数和所述提供方训练样本的第四特征量,所述提供方并基于所述第四参数和所述第四特征量,确定所述提供方模型的第四预测值;
所述需求方基于所述第三预测值,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,并且所述提供方基于所述第四预测值,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
进一步地,处理器1001可以调用存储器1005中存储的标签预测程序,还执行以下操作:
所述需求方获取所述需求方训练样本的标签量、协调方所提供的公共秘钥信息以及所述提供方模型的中间加密量,其中,所述提供方获取所述第四预测值和所述协调方所提供的公共秘钥信息,所述提供方并基于所述第四预测值和所述公共秘钥信息,确定所述中间加密量;
所述需求方基于所述第三预测值、所述标签量和所述中间加密量,确定所述需求方模型的加密残差量;
所述需求方基于所述加密残差量和所述公共秘钥信息,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述加密残差量和所述公共秘钥信息,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
进一步地,处理器1001可以调用存储器1005中存储的标签预测程序,还执行以下操作:
所述需求方基于所述第三特征量、所述加密残差量和所述公共秘钥信息,确定所述需求方模型的第一加密梯度;
所述提供方基于所述第四特征量、所述加密残差量和所述公共秘钥信息,确定所述提供方模型的第二加密梯度;
所述需求方基于所述第一加密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二加密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
进一步地,处理器1001可以调用存储器1005中存储的标签预测程序,还执行以下操作:
所述协调方用于获取所述需求方模型的第一加密梯度、所述提供方模型的第二加密梯度以及所述公有秘钥信息对应的私有秘钥信息;
所述协调方用于基于所述第一加密梯度和所述私有秘钥信息,确定所述需求方模型对应的第一解密梯度;
所述协调方用于基于所述第二加密梯度和所述私有秘钥信息,确定所述提供方模型对应的第二解密梯度;
所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
进一步地,处理器1001可以调用存储器1005中存储的标签预测程序,还执行以下操作:
所述需求方基于所述第三预测值、所述中间加密量和所述第二曝光量,确定所述需求方模型的加密损失变化量;
所述协调方用于获取所述需求方模型的加密损失变化量,所述协调方并检测所述加密损失变化量是否小于或者等于第一预设阈值;
所述需求方获取需求方模型更新后的第一参数的步骤包括:
若所述加密损失变化量小于或者等于所述第一预设阈值,则所述需求方更新所述需求方模型的参数,所述需求方获取所述第五参数,将所述第五参数作为第一参数,以训练所述需求方模型;
所述提供方用于获取所述提供方模型更新后的第二参数的步骤包括:
若所述加密损失变化量小于或者等于所述第一预设阈值,则所述提供方更新所述提供方模型的参数,所述提供方获取所述第六参数,将所述第六参数作为第二参数,以训练所述提供方模型;
若所述加密损失变化量大于所述第一预设阈值,则所述需求方继续执行所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,所述提供方继续执行所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数的步骤。
进一步地,处理器1001可以调用存储器1005中存储的标签预测程序,还执行以下操作:
所述需求方获取所述需求方训练样本,所述提供方获取所述需求方所提供的每次训练样本的训练样本量;
所述需求方基于所述需求方训练样本,确定所述需求方训练样本的第三特征量以及所述需求方训练样本的第二曝光量;
所述提供方用于基于所述训练样本量,确定与所述需求方训练样本相匹配的所述提供方训练样本;
所述提供方用于基于所述提供方训练样本,确定所述提供方训练样本的第四特征量。
进一步地,处理器1001可以调用存储器1005中存储的标签预测程序,还执行以下操作:
所述协调方用于获取所述需求方模型的模型训练轮数,并检测所述模型训练轮数是否大于或者等于第二预设阈值;
所述需求方获取需求方模型更新后的第一参数的步骤包括:
若所述模型训练轮数大于或者等于第二预设阈值,则所述需求方更新所述需求方模型的参数,所述需求方获取所述第五参数,将所述第五参数作为第一参数,以训练所述需求方模型;
所述提供方用于获取所述提供方模型更新后的第二参数的步骤包括:
若所述模型训练轮数大于或者等于第二预设阈值,则所述提供方更新所述提供方模型的参数,所述提供方获取所述第六参数,将所述第六参数作为第二参数,以训练所述提供方模型;
若所述模型训练轮数小于第二预设阈值,则所述需求方继续执行所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,所述提供方继续执行所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数的步骤。
本发明还提供一种标签预测方法,参照图2,图2为本发明标签预测方法第一实施例的流程示意图。
在本实施例中,该标签预测方法包括:
联邦学习是在金融领域的应用非常广泛的一种技术,是一种通过联合不同的参与方进行机器学习的方法,保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。联邦学习中的纵向联邦学习则是在两个参与方的数据集的用户重叠较多而用户特征重叠较少的情况下,把两个参与方的数据集按照纵向(即特征维度)切分,取出双方用户相同而用户特征不完全相同的那部分数据进行训练的方法。
本实施例应用于三方纵向联邦学习场景,参照图4,如图4的建模流程所示,设定合作方包括提供方A方、需求方B方和协调方C方,需求方B拥有最具商业价值的标签,提供方A拥有B方不具有的某些特征,C方为协调方。A、B双方需要在***露B方标签信息以及双方特征信息的前提下进行泊松分布的建模和预测。
步骤S10,需求方获取需求方模型更新后的第一参数、需求方预测样本的第一特征量和所述需求方预测样本的第一曝光量;
其中,参照图3,如图3的预测流程所示,需求方为图3中的B方,需求方B方包括一方联邦学***方公里或者10米等,曝光量也被称为暴露度。
可以理解的是,实际上,需求方B方的预测样本与A方提供方的预测样本中包含的数据信息无法交换,首先,两方企业的数据交换违反法律,容易泄露终端数据和用户数据;其次,此类敏感数据的交换不符合双方利益,此时,纵向联邦学习开始发挥它的独特作用,即在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。
在本实施例中,在本实施例的三方纵向联邦学习模型建模完成后,参照图3,如图3的预测流程所示,预测流程开始,需求方B方首先获取其模型更新后的第一参数、需求方预测样本的第一特征量以及需求方预测样本的第一曝光量,以便进行后续样本的预测。其中,第一参数可以表示为θB,第一特征量可以表示为第一曝光量可以表示为ei。并且第一参数由A方、B方联合C方协调方训练三方纵向联邦学习模型后,更新需求方模型中的参数,以供后续准确预测B方预测样本对应的结果。
步骤S20,所述需求方基于所述第一参数、所述第一特征量和所述第一曝光量,确定所述需求方模型的第一预测值;
在本实施例中,参照图3,如图3的预测流程所示,在预测流程中,在需求方B方获取第一参数θB、第一特征量和第一曝光量ei后,需求方B方基于第一参数θB、第一特征量和第一曝光量ei,计算需求方B方模型的第一预测值。其中,第一预测值的计算过程包括先计算再计算第一预测值的计算公式为
步骤S30,所述需求方获取提供方模型的第二预测值和泊松计算规则,其中,提供方用于获取所述提供方模型更新后的第二参数以及提供方预测样本的第二特征量,并基于所述第二参数和所述第二特征量,确定所述第二预测值;
其中,参照图3,如图3的预测流程所示,提供方为图3中的提供方A方,提供方A方包括一方联邦学习模型以及模型参数,即提供方模型及其模型参数;第二参数为提供方模型中的模型参数,并且是建模流程完成和提供方模型更新后的模型参数;第二特征量为提供方预测样本的样本特征,即提供方预测样本的用户特征,若提供方A方为电商,则第一特征量可以是电商用户的浏览与购买历史等。
在本实施例中,参照图3,如图3的预测流程所示,在预测流程中,提供方A方先获取其模型更新后的第二参数θA和其预测样本的第二特征量以便三方纵向联邦学习模型进行后续样本的预测。在提供方A方获取第二参数θA和第二特征量后,提供方A方基于第二参数θA和第二特征量计算提供方预测样本的第二预测值。提供方A方计算完成第二预测值后,将第二预测值发送给需求方,需求方B方获取提供方模型计算的第二预测值,并且获取需求方预设的泊松计算规则。其中,第二预测值的计算过程包括先计算再计算第二预测值的计算公式为
可以理解的是,在预测流程开始之前,A、B方首先需要通过一匹配机制完成共同的预测样本的匹配,即A、B方已知需要预测的样本id,进行匹配双方共同的预测样本,只有A、B双方都有该样本id对应的共同的预测样本才可对该预测样本进行标签特征的预测,其中,预测样本可以是一个,也可以是多个。
步骤S40,所述需求方基于所述第一预测值、所述第二预测值和所述泊松计算规则,确定所述需求方预测样本的预测标签量。
其中,预测标签量为在某个不定时间范围内,发生某件事情的次数,即需求方模型需要预测的标签数据,包括次数,如某一用户在一个月内购买基金的次数。泊松计算规则可以为泊松分布模型或者公式,也可以是其他与泊松分布具有效果的模型。
在本实施例中,参照图3,如图3的预测流程所示,在需求方确定第一预测值以及提供方确定第二预测值后,提供方A方将第二预测值发送至需求方B方。需求方B方接收到A方发送过来的第二预测值后,需求方B方的模型基于第一预测值第二预测值和泊松计算规则,计算需求方预测样本的预测标签量,以计算需求方B方的预测样本的标签特征的预测结果。其中,基于泊松计算规则的预测标签量的计算公式为
在本实施例中的纵向联邦学习场景中,需求方B方根据其拥有的训练样本的用户特征即第一特征量和标签特征即第一曝光量,联合提供方A方提供的共同样本的用户特征即第二特征量,并基于A方、B方联合C方得到包含第一参数和第二参数的训练完成后的模型,可预测出训练样本的标签量。例如,已知B方银行用户的收支行为与信用评级,与A方电商用户的浏览与购买历史,通过该纵向联邦学习模型,可预测将来的某个时间段内某个用户购买基金的次数。
本实施例提出的标签预测方法,通过需求方获取需求方模型更新后的第一参数、需求方预测样本的第一特征量和所述需求方预测样本的第一曝光量,所述需求方基于所述第一参数、所述第一特征量和所述第一曝光量,确定所述需求方模型的第一预测值,所述需求方获取提供方模型的第二预测值和泊松计算规则,其中,提供方用于获取所述提供方模型更新后的第二参数以及提供方预测样本的第二特征量,并基于所述第二参数和所述第二特征量,确定所述第二预测值,所述需求方基于所述第一预测值、所述第二预测值和所述泊松计算规则,确定所述需求方预测样本的预测标签量,通过结合泊松回归实现方案,训练纵向联邦学习模型中的需求方模型和提供方模型,可准确预测到需求方预测样本对应的预测标签量,解决了现有技术中无法预测准确的标签数据的问题,并且采用搭建纵向联邦学习模型的方式,解决了容易泄露终端数据和个人数据隐私的问题。
基于第一实施例,提出本发明方法的第二实施例,在本实施例中,步骤S10之前,还包括:
步骤a,所述需求方获取所述需求方模型的第三参数、需求方训练样本的第三特征量和所述需求方训练样本的第二曝光量;
其中,参照图4,如图4的建模流程所示,第三参数为需求方模型中的模型参数,是建模流程过程中的需求方模型参数,与第一参数不一样的是,第一参数是建模完成后需求方模型的模型参数,而第三参数为未建模或者建模的过程中的模型参数,此时纵向联邦学***方公里或者10米等,曝光量也被称为暴露度。
在本实施例中,参照图4,如图4的建模流程所示,在纵向联邦学习建模的过程中,需求方B方获取其模型的第三参数、B方的训练样本的第三特征量以及其训练样本的第二曝光量,以供后续三方纵向联邦学习模型的训练。其中,第三参数可以表示为θB,第三特征量可以表示为XB,第二曝光量可以表示为E。
步骤b,所述需求方基于所述第三参数、所述第三特征量和所述第二曝光量,确定所述需求方模型的第三预测值;
在本实施例中,参照图4,如图4的建模流程所示,在纵向联邦学习建模的过程中,在需求方B方获取第三参数θB、第三特征量XB和第二曝光量E后,需求方B方基于第三参数θB、第三特征量XB和第二曝光量E,计算需求方模型的第三预测值。其中,第三预测值的计算过程包括先计算XBθB,再计算exp(XBθB)*E,第三预测值的计算公式为exp(XBθB)*E。
步骤c,所述提供方用于获取所述提供方模型更新前的第四参数和所述提供方训练样本的第四特征量,所述提供方并基于所述第四参数和所述第四特征量,确定所述提供方模型的第四预测值;
其中,参照图4,如图4的建模流程所示,第四参数为提供方模型中的模型参数,是建模流程过程中的提供方模型中的参数,与第三参数不一样的是,第三参数是建模完成后提供方模型的模型参数,而第四参数为提供方模型未建模或者建模的过程中的模型参数,此时纵向联邦学习模型并未建模完成;第四特征量为提供方A方中训练样本中的样本特征,为A方所提供的训练样本中的用户特征,若A方为电商,则第一特征量可以是电商用户的浏览与购买历史等。
在本实施例中,参照图4,如图4的建模流程所示,在纵向联邦学习建模的过程中,提供方A方首先获取提供方模型的第四参数和提供方训练样本的第四特征量,以供后续三方纵向联邦学习模型的训练,其中,第四参数可以表示为θA,第四特征量可以表示为XA。在提供方A方获取第四参数θA和第四特征量XA后,提供方A方基于第四参数θA和第四特征量XA,计算提供方训练样本的第四预测值。其中,第四预测值的计算过程包括先计算XAθA,再计算exp(XAθA),第四预测值的计算公式为exp(XAθA)。
可以理解的是,需求方B方的训练样本与A方提供方的训练样本中包含的数据信息无法交换,并且在建模流程开始之前,A、B方首先需要通过一匹配机制完成共同的训练样本的匹配,即A、B方通过加密ID交集完成共同的训练样本筛选,只有A、B双方都有该加密ID对应的共同的训练样本才可对该训练样本进行纵向联邦学习模型的建模,其中,训练样本一般为多个,可以是百万个,也可以是千万个。通过加密ID对A、B双方训练样本进行筛选共同训练样本,达到在保障了大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习的效果。
步骤d,所述需求方基于所述加密残差量和所述公共秘钥信息,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述加密残差量和所述公共秘钥信息,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
在本实施例中,在纵向联邦学习建模的过程中,在需求方B方确定第三预测值以及提供方确定第四预测值后,通过联合A方、B方和C方的三方纵向联邦学习框架的泊松回归实现方案,需求方基于第三预测值exp(XBθB)*E,确定需求方模型的第五参数,以更新需求方模型参数以及训练需求方模型,提供方基于第四预测值exp(XAθA),确定提供方模型的第六参数,以更新提供方模型参数以及训练提供方模型。
进一步地,在一实施例中,所述需求方基于所述第三预测值,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,并且所述提供方基于所述第四预测值,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤包括:
步骤e,所述需求方获取所述需求方训练样本的标签量、协调方所提供的公共秘钥信息以及所述提供方模型的中间加密量,其中,所述提供方获取所述第四预测值和所述协调方所提供的公共秘钥信息,所述提供方并基于所述第四预测值和所述公共秘钥信息,确定所述中间加密量;
其中,参照图4,如图4的建模流程所示,公共秘钥信息为协调方C方所提供的公共秘钥信息,是提供以A、B双方数据加密的一种加密规则,并且只有协调方C才有该公共秘钥信息对应的私有秘钥信息;标签量为需求方B方中训练样本中的标签特征Y,即B方中训练样本中的最具商业价值的标签,若需求方为银行,则标签量可以是某个时间段内银行用户购买基金的次数。
在本实施例中,参照图4,如图4的建模流程所示,在纵向联邦学习建模的过程中,协调方C方获取公共秘钥信息,并将公共秘钥信息发送至需求方和提供方。提供方A方接收到公共秘钥信息后,基于提供方模型的第四预测值exp(XAθA)和协调方模型的公共秘钥信息,通过同态加密技术,将第四预测值exp(XAθA)进行加密,确定提供方模型中第四预测值对应的中间加密量[[exp(XAθA)]]。提供方确定完中间加密量后,将中间加密量发送至需求方,并且需求方B方无法解密该中间加密量。之后,需求方获取该中间加密量,同时获取需求方训练样本中的标签量和协调方所提供的公共秘钥信息。
步骤f,所述需求方基于所述第三预测值、所述标签量和所述中间加密量,确定所述需求方模型的加密残差量;
在本实施例中,参照图5,如图5的建模流程所示,在纵向联邦学习建模的过程中在,需求方B方获取第三预测值、标签量和中间加密量后,需求方B方基于需求方模型的第三预测值exp(XBθB)*E、提供方模型的中间加密量[[exp(XAθA)]]和需求方训练样本的标签量Y,先确定残差量d,再基于同态加密技术,使用公共秘钥信息将残差量进行加密,确定需求方模型的加密残差量[[d]]。其中,加密残差量[[d]]的计算公式如下:
[[d]]=exp(XBθB)*E*[[XAθA]]-Y
其中,exp(XBθB)*E为第三预测值,[[exp(XAθA)]]为中间加密量,Y为标签量。
步骤g,所述需求方基于所述加密残差量和所述公共秘钥信息,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述加密残差量和所述公共秘钥信息,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
在本实施例中,在纵向联邦学习建模的过程中,在确定需求方模型的加密残差量[[d]]后,通过联合A方、B方和C方的三方纵向联邦学习框架的泊松回归实现方案,需求方基于加密残差量和公共秘钥信息,确定需求方模型的第五参数,以更新需求方模型参数以及训练需求方模型,提供方基于加密残差量和公共秘钥信息,确定提供方模型的第六参数,以更新提供方模型参数以及训练提供方模型。
进一步地,在一实施例中,所述需求方基于所述加密残差量和所述公共秘钥信息,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述加密残差量和所述公共秘钥信息,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤包括:
步骤h,所述需求方基于所述第三特征量、所述加密残差量和所述公共秘钥信息,确定所述需求方模型的第一加密梯度;
在本实施例中,参照图6,如图6的建模流程所示,在纵向联邦学习建模的过程中,在需求方B方确定加密残差量[[d]]后,基于需求方模型中的第三特征量XB、需求方模型中的加密残差量[[d]]和需求方所获取的公共秘钥信息,需求方B方先计算第一加密梯度对应的梯度值再计算第一加密梯度
步骤i,所述提供方基于所述第四特征量、所述加密残差量和所述公共秘钥信息,确定所述提供方模型的第二加密梯度;
在本实施例中,参照图6,如图6的建模流程所示,在纵向联邦学习建模的过程中,在需求方B方确定加密残差量[[d]]后,将该加密残差量[[d]]发送至提供方A方。提供方A方接收到需求方B方发送过来的加密残差量[[d]]后,基于提供方模型中的第四特征量、接收到的加密残差量[[d]]和接收到的公共秘钥信息,提供方A方先计算第二加密梯度对应的梯度值再计算第二加密梯度
步骤j,所述需求方基于所述第一加密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二加密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
在本实施例中,在纵向联邦学习建模的过程中,在需求方B方确定第一加密梯度以及提供方A方确定第二加密梯度后,通过联合A方、B方和C方的三方纵向联邦学习框架的泊松回归实现方案,需求方基于第一加密梯度,确定需求方模型的第五参数,以更新需求方模型参数以及训练需求方模型,提供方基于第二加密梯度,确定提供方模型的第六参数,以更新提供方模型参数以及训练提供方模型。
进一步地,在一实施例中,所述需求方基于所述第一加密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二加密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤包括:
步骤k,所述协调方用于获取所述需求方模型的第一加密梯度、所述提供方模型的第二加密梯度以及所述公有秘钥信息对应的私有秘钥信息;
其中,私有秘钥信息为协调方C方所提供的私有秘钥信息,是提供以A、B两方的加密数据的一种解密规则,并且只有协调方C才有公共秘钥信息对应的私有秘钥信息。
在本实施例中,在纵向联邦学习建模的过程中,在需求方确定需求方模型的第一加密梯度后,将该第一加密梯度发送给协调方C方;在提供方确定提供方模型的第二加密梯度后,将该第二加密梯度发送给协调方C方。之后,协调方C方获取接收到的第一加密梯度、第二加密梯度和协调方C方本身持有的私有秘钥信息,以对从需求方B方和提供方A方接收到的数据进行解密。
步骤l,所述协调方用于基于所述第一加密梯度和所述私有秘钥信息,确定所述需求方模型对应的第一解密梯度;
步骤m,所述协调方用于基于所述第二加密梯度和所述私有秘钥信息,确定所述提供方模型对应的第二解密梯度;
步骤n,所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
在本实施例中,参照图7,如图7的建模流程所示,在纵向联邦学习建模的过程中,在协调方C方确定第一解密梯度以及第二解密梯度后,协调方C方分别将第一解密梯度发送至需求方B方,以及将第二解密梯度发送至提供方A方。在需求方B方接收到第一解密梯度后,需求方基于第一解密梯度,确定需求方模型的第五参数θB,以更新需求方模型参数以及训练所述需求方模型;以及提供方A方接收到第二解密梯度后,提供方基于第二解密梯度,确定提供方模型的第六参数θA,以更新提供方模型参数以及训练提供方模型。
进一步地,在一实施例中,所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤之后,还包括:
步骤n1,所述需求方基于所述第三预测值、所述中间加密量和所述第二曝光量,确定所述需求方模型的加密损失变化量;
在本实施例中,参照图5,如图5的建模流程所示,在纵向联邦学习建模的过程中,基于需求方B方确定的第三预测值中的XBθB、需求方B方确定的中间加密量[[exp(XAθA)]]和需求方B方训练样本的第二曝光量E,需求方B方可首先确定其模型的加密损失量[[Loss]],其中,加密损失量[[Loss]]的计算公式如下:
[[Loss]]=∑[[exp(XAθA)]]*exp(XBθB)*E-Y([[XAθA]]+XBθB+log(E))
计算完成需求方模型的加密损失量[[Loss]]后,确定需求方模型加密损失变化量ΔL,其中,加密损失变化量的计算公式如下:
ΔL=[[Loss]]-[[Loss]]'
其中,[[Loss]]为本次计算的加密损失量,[[Loss]]'为上一次计算并保存的加密损失量。
步骤n2,所述协调方用于获取所述需求方模型的加密损失变化量,所述协调方并检测所述加密损失变化量是否小于或者等于第一预设阈值;
在本实施例中,参照图5,如图5的建模流程所示,在纵向联邦学习建模的过程中,在需求方B方确定加密损失变化量[[Loss]]后,需求方将加密损失变化量发送至协调方C方。协调方C方获取到加密损失变化量[[Loss]]后,协调方C方检测加密损失变化量是否小于或者等于第一预设阈值,以检测三方纵向联邦学习模型是否收敛。
步骤n3,所述需求方获取需求方模型更新后的第一参数的步骤包括:若所述加密损失变化量小于或者等于所述第一预设阈值,则所述需求方更新所述需求方模型的参数,所述需求方获取所述第五参数,将所述第五参数作为第一参数,以训练所述需求方模型;
在本实施例中,在协调方C方检测加密损失变化量是否小于或者等于第一预设阈值后,若检测到加密损失变化量[[Loss]]小于或者等于第一预设阈值,则需求方获取需求方模型的第五参数,并更新需求方模型的参数,即把第五参数作为第一参数。更新需求方模型的参数,此时说明三方纵向联邦学习模型建模完成,以供后续模型对预测样本进行标签量的预测。
步骤n4,所述提供方用于获取所述提供方模型更新后的第二参数的步骤包括:若所述加密损失变化量小于或者等于所述第一预设阈值,则所述提供方更新所述提供方模型的参数,所述提供方获取所述第六参数,将所述第六参数作为第二参数,以训练所述提供方模型;
在本实施例中,在协调方C方检测加密损失变化量是否小于或者等于第一预设阈值后,若检测到加密损失变化量[[Loss]]小于或者等于第一预设阈值,则提供方获取提供方模型的第六参数,并更新提供方模型的参数,即把第六参数作为第二参数。更新提供方模型的参数,此时说明三方纵向联邦学习模型建模完成,以供后续模型对预测样本进行标签量的预测。
步骤n5,若所述加密损失变化量大于所述第一预设阈值,则所述需求方继续执行所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,所述提供方继续执行所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数的步骤。
在本实施例中,在协调方C方检测加密损失变化量是否小于或者等于第一预设阈值后,若检测到加密损失变化量[[Loss]]大于第一预设阈值,说明模型并未收敛,则需求方继续执行需求方基于第一解密梯度,确定需求方模型的第五参数,且提供方继续执行提供方基于第二解密梯度,确定提供方模型的第六参数的步骤。
本实施例提出的标签预测方法,通过所述需求方获取所述需求方模型更新前的第三参数、需求方训练样本的第三特征量和所述需求方训练样本的第二曝光量,所述需求方基于所述第三参数、所述第三特征量和所述第二曝光量,确定所述需求方模型的第三预测值,所述提供方用于获取所述提供方模型更新前的第四参数和所述提供方训练样本的第四特征量,所述提供方并基于所述第四参数和所述第四特征量,确定所述提供方模型的第四预测值,所述需求方基于所述第三预测值,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,并且所述提供方基于所述第四预测值,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型,以更新提供方模型参数以及训练所述提供方模型,通过三方纵向联邦学习的建模过程和训练过程,更新需求方模型和提供方模型中的参数,以供后续准确预测需求方预测样本的预测标签量,采用搭建基于泊松回归的三方纵向联邦学习框架的方式,解决了容易泄露终端数据和个人数据隐私的问题。
基于第二实施例,提出本发明方法的第三实施例,在本实施例中,步骤a之前,还包括:
步骤p,所述需求方获取所述需求方训练样本,所述提供方获取所述需求方所提供的每次训练样本的训练样本量;
在本实施例中,参照图4,如图4的建模流程所示,在建模流程开始之前,需求方B方获取需求方所提供的每次训练样本的训练样本量以及需求方的训练样本,需求方B方并将获取到的训练样本量发送至提供方A方。提供方A方接收到需求方B方发送过来的训练样本量后,提供方A方获取该训练样本量。其中,训练样本量为每次使用的训练样本的大小。
步骤q,所述需求方基于所述需求方训练样本,确定所述需求方训练样本的第三特征量以及所述需求方训练样本的第二曝光量;
在本实施例中,确定与需求方训练样本后,需求方基于需求方训练样本,确定需求方训练样本的第三特征量和需求方训练样本的第二曝光量,以供后续对三方纵向联邦学习模型的建模和训练。
步骤r,所述提供方用于基于所述训练样本量,确定与所述需求方训练样本相匹配的所述提供方训练样本;
在本实施例中,在提供方A方获取从需求方发送过来的训练样本量后,提供方A方通过一匹配机制完成共同的训练样本的匹配,即A方通过训练样本量以完成A、B两方共同的训练样本筛选,确定与需求方训练样本相匹配的提供方训练样本,只有筛选出共同的训练样本才可进行对纵向联邦学习模型的建模和训练。
步骤s,所述提供方用于基于所述提供方训练样本,确定所述提供方训练样本的第四特征量。
在本实施例中,在提供方确定提供方训练样本后,提供方可基于该提供方训练样本,确定提供方训练样本的第四特征量,以供后续对三方纵向联邦学习模型的建模和训练。
进一步地,在一实施例中,所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤之后,还包括:
步骤t,所述协调方用于获取所述需求方模型的模型训练轮数,并检测所述模型训练轮数是否大于或者等于第二预设阈值;
在本实施例中,在纵向联邦学习建模的过程中,需求方实时记录和更新需求方模型的模型训练轮数,协调方获取需求方模型的模型训练轮数。其中,模型训练轮数为当前训练三方纵向联邦学习的轮数,每确定一次需求方模型的第四参数和提供方模型的第五参数增加一次模型训练轮数。协调方获取需求方模型的模型训练轮数后,检测模型训练轮数是否大于或者等于第二预设阈值,以检测模型是否达到最大训练轮数即第二预设阈值,以检测模型是否收敛。
步骤u,所述需求方获取需求方模型更新后的第一参数的步骤包括:若所述模型训练轮数大于或者等于第二预设阈值,则所述需求方更新所述需求方模型的参数,所述需求方获取所述第五参数,将所述第五参数作为第一参数,以训练所述需求方模型;
在本实施例中,在检测模型训练轮数是否大于或者等于第二预设阈值后,若检测到模型训练轮数大于或者等于第二预设阈值,则需求方获取需求方模型的第五参数,并更新需求方模型的参数,即把第五参数作为第一参数。更新需求方模型的参数,此时说明三方纵向联邦学习模型建模完成,以供后续模型对预测样本进行标签量的预测。
步骤v,所述提供方用于获取所述提供方模型更新后的第二参数的步骤包括:若所述模型训练轮数大于或者等于第二预设阈值,则所述提供方更新所述提供方模型的参数,所述提供方获取所述第六参数,将所述第六参数作为第二参数,以训练所述提供方模型;
在本实施例中,在检测模型训练轮数是否大于或者等于第二预设阈值后,若检测到模型训练轮数大于或者等于第二预设阈值,则提供方获取提供方模型的第六参数,并更新提供方模型的参数,即把第六参数作为第二参数。更新提供方模型的参数,此时说明三方纵向联邦学习模型建模完成,以供后续模型对预测样本进行标签量的预测。
步骤w,若所述模型训练轮数小于第二预设阈值,则所述需求方继续执行所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,所述提供方继续执行所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数的步骤。
在本实施例中,在检测模型训练轮数是否大于或者等于第二预设阈值后,若检测到模型训练轮数小于第二预设阈值,说明模型的训练并未完成,则需求方继续执行需求方基于第一解密梯度,确定需求方模型的第五参数,且提供方继续执行提供方基于第二解密梯度,确定提供方模型的第六参数的步骤。
本实施例提出的标签预测方法,通过所述需求方获取所述需求方训练样本,所述提供方获取所述需求方所提供的每次训练样本的训练样本量,所述需求方基于所述需求方训练样本,确定所述需求方训练样本的第三特征量以及所述需求方训练样本的第二曝光量,所述提供方用于基于所述训练样本量,确定与所述需求方训练样本相匹配的所述提供方训练样本,所述提供方用于基于所述提供方训练样本,确定所述提供方训练样本的第四特征量,通过准确获取训练样本量以保证完成A、B两方共同的训练样本筛选,确定与需求方训练样本相匹配的提供方的训练样本,便于后续三方纵向联邦学习模型的训练。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有标签预测程序,所述标签预测程序被处理器执行时实现如上述中任一项所述的标签预测方法的步骤。
本发明计算机可读存储介质具体实施例与上述标签预测方法的各实施例基本相同,在此不再详细赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种标签预测方法,其特征在于,所述标签预测方法包括以下步骤:
需求方获取需求方模型更新后的第一参数、需求方预测样本的第一特征量和所述需求方预测样本的第一曝光量;
所述需求方基于所述第一参数、所述第一特征量和所述第一曝光量,确定所述需求方模型的第一预测值;
所述需求方获取提供方模型的第二预测值和泊松计算规则,其中,提供方用于获取所述提供方模型更新后的第二参数以及提供方预测样本的第二特征量,并基于所述第二参数和所述第二特征量,确定所述第二预测值;
所述需求方基于所述第一预测值、所述第二预测值和所述泊松计算规则,确定所述需求方预测样本的预测标签量。
2.如权利要求1所述的标签预测方法,其特征在于,所述需求方获取需求方模型更新后的第一参数、需求方预测样本的第一特征量和所述需求方预测样本的第一曝光量的步骤之前,还包括:
所述需求方获取所述需求方模型更新前的第三参数、需求方训练样本的第三特征量和所述需求方训练样本的第二曝光量;
所述需求方基于所述第三参数、所述第三特征量和所述第二曝光量,确定所述需求方模型的第三预测值;
所述提供方用于获取所述提供方模型更新前的第四参数和所述提供方训练样本的第四特征量,所述提供方并基于所述第四参数和所述第四特征量,确定所述提供方模型的第四预测值;
所述需求方基于所述第三预测值,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,并且所述提供方基于所述第四预测值,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
3.如权利要求2所述的标签预测方法,其特征在于,所述所述需求方基于所述第三预测值,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,并且所述提供方基于所述第四预测值,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤包括:
所述需求方获取所述需求方训练样本的标签量、协调方所提供的公共秘钥信息以及所述提供方模型的中间加密量,其中,所述提供方获取所述第四预测值和所述协调方所提供的公共秘钥信息,所述提供方并基于所述第四预测值和所述公共秘钥信息,确定所述中间加密量;
所述需求方基于所述第三预测值、所述标签量和所述中间加密量,确定所述需求方模型的加密残差量;
所述需求方基于所述加密残差量和所述公共秘钥信息,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述加密残差量和所述公共秘钥信息,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
4.如权利要求3所述的标签预测方法,其特征在于,所述所述需求方基于所述加密残差量和所述公共秘钥信息,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述加密残差量和所述公共秘钥信息,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤包括:
所述需求方基于所述第三特征量、所述加密残差量和所述公共秘钥信息,确定所述需求方模型的第一加密梯度;
所述提供方基于所述第四特征量、所述加密残差量和所述公共秘钥信息,确定所述提供方模型的第二加密梯度;
所述需求方基于所述第一加密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二加密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
5.如权利要求4所述的标签预测方法,其特征在于,所述所述需求方基于所述第一加密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二加密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤包括:
所述协调方用于获取所述需求方模型的第一加密梯度、所述提供方模型的第二加密梯度以及所述公有秘钥信息对应的私有秘钥信息;
所述协调方用于基于所述第一加密梯度和所述私有秘钥信息,确定所述需求方模型对应的第一解密梯度;
所述协调方用于基于所述第二加密梯度和所述私有秘钥信息,确定所述提供方模型对应的第二解密梯度;
所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型。
6.如权利要求5所述的标签预测方法,其特征在于,所述所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤之后,还包括:
所述需求方基于所述第三预测值、所述中间加密量和所述第二曝光量,确定所述需求方模型的加密损失变化量;
所述协调方用于获取所述需求方模型的加密损失变化量,所述协调方并检测所述加密损失变化量是否小于或者等于第一预设阈值;
所述需求方获取需求方模型更新后的第一参数的步骤包括:
若所述加密损失变化量小于或者等于所述第一预设阈值,则所述需求方更新所述需求方模型的参数,所述需求方获取所述第五参数,将所述第五参数作为第一参数,以训练所述需求方模型;
所述提供方用于获取所述提供方模型更新后的第二参数的步骤包括:
若所述加密损失变化量小于或者等于所述第一预设阈值,则所述提供方更新所述提供方模型的参数,所述提供方获取所述第六参数,将所述第六参数作为第二参数,以训练所述提供方模型;
若所述加密损失变化量大于所述第一预设阈值,则所述需求方继续执行所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,所述提供方继续执行所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数的步骤。
7.如权利要求2所述的标签预测方法,其特征在于,所述所述需求方获取所述需求方模型更新前的第三参数、需求方训练样本的第三特征量和所述需求方训练样本的第二曝光量的步骤之前,还包括:
所述需求方获取所述需求方训练样本,所述提供方获取所述需求方所提供的每次训练样本的训练样本量;
所述需求方基于所述需求方训练样本,确定所述需求方训练样本的第三特征量以及所述需求方训练样本的第二曝光量;
所述提供方用于基于所述训练样本量,确定与所述需求方训练样本相匹配的所述提供方训练样本;
所述提供方用于基于所述提供方训练样本,确定所述提供方训练样本的第四特征量。
8.如权利要求1至7任一项所述的标签预测方法,其特征在于,所述所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,以更新需求方模型参数以及训练所述需求方模型,所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数,以更新提供方模型参数以及训练所述提供方模型的步骤之后,还包括:
所述协调方用于获取所述需求方模型的模型训练轮数,并检测所述模型训练轮数是否大于或者等于第二预设阈值;
所述需求方获取需求方模型更新后的第一参数的步骤包括:
若所述模型训练轮数大于或者等于第二预设阈值,则所述需求方更新所述需求方模型的参数,所述需求方获取所述第五参数,将所述第五参数作为第一参数,以训练所述需求方模型;
所述提供方用于获取所述提供方模型更新后的第二参数的步骤包括:
若所述模型训练轮数大于或者等于第二预设阈值,则所述提供方更新所述提供方模型的参数,所述提供方获取所述第六参数,将所述第六参数作为第二参数,以训练所述提供方模型;
若所述模型训练轮数小于第二预设阈值,则所述需求方继续执行所述需求方基于所述第一解密梯度,确定所述需求方模型的第五参数,所述提供方继续执行所述提供方基于所述第二解密梯度,确定所述提供方模型的第六参数的步骤。
9.一种标签预测装置,其特征在于,所述标签预测装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标签预测程序,所述标签预测程序被所述处理器执行时实现如权利要求1至8中任一项所述的标签预测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有标签预测程序,所述标签预测程序被处理器执行时实现如权利要求1至8中任一项所述的标签预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911083212.XA CN110837653B (zh) | 2019-11-07 | 2019-11-07 | 标签预测方法、装置以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911083212.XA CN110837653B (zh) | 2019-11-07 | 2019-11-07 | 标签预测方法、装置以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110837653A true CN110837653A (zh) | 2020-02-25 |
CN110837653B CN110837653B (zh) | 2023-09-19 |
Family
ID=69576330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911083212.XA Active CN110837653B (zh) | 2019-11-07 | 2019-11-07 | 标签预测方法、装置以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110837653B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368314A (zh) * | 2020-02-28 | 2020-07-03 | 深圳前海微众银行股份有限公司 | 基于交叉特征的建模、预测方法、装置、设备及存储介质 |
CN111753996A (zh) * | 2020-06-24 | 2020-10-09 | 中国建设银行股份有限公司 | 一种方案确定模型的优化方法、装置、设备及存储介质 |
CN112766514A (zh) * | 2021-01-22 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 一种联合训练机器学习模型的方法、***及装置 |
CN112818369A (zh) * | 2021-02-10 | 2021-05-18 | ***股份有限公司 | 一种联合建模方法及装置 |
CN114187006A (zh) * | 2021-11-03 | 2022-03-15 | 杭州未名信科科技有限公司 | 一种基于区块链监管的联邦学习方法 |
CN115409096A (zh) * | 2022-08-17 | 2022-11-29 | 北京融数联智科技有限公司 | 两方泊松回归隐私计算模型训练方法、装置和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140272914A1 (en) * | 2013-03-15 | 2014-09-18 | William Marsh Rice University | Sparse Factor Analysis for Learning Analytics and Content Analytics |
CN107993088A (zh) * | 2017-11-20 | 2018-05-04 | 北京三快在线科技有限公司 | 一种购买周期预测方法及装置,电子设备 |
CN109165515A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数获取方法、***及可读存储介质 |
US20190244680A1 (en) * | 2018-02-07 | 2019-08-08 | D-Wave Systems Inc. | Systems and methods for generative machine learning |
CN110276210A (zh) * | 2019-06-12 | 2019-09-24 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数的确定方法及装置 |
-
2019
- 2019-11-07 CN CN201911083212.XA patent/CN110837653B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140272914A1 (en) * | 2013-03-15 | 2014-09-18 | William Marsh Rice University | Sparse Factor Analysis for Learning Analytics and Content Analytics |
CN107993088A (zh) * | 2017-11-20 | 2018-05-04 | 北京三快在线科技有限公司 | 一种购买周期预测方法及装置,电子设备 |
US20190244680A1 (en) * | 2018-02-07 | 2019-08-08 | D-Wave Systems Inc. | Systems and methods for generative machine learning |
CN109165515A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数获取方法、***及可读存储介质 |
CN110276210A (zh) * | 2019-06-12 | 2019-09-24 | 深圳前海微众银行股份有限公司 | 基于联邦学习的模型参数的确定方法及装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368314A (zh) * | 2020-02-28 | 2020-07-03 | 深圳前海微众银行股份有限公司 | 基于交叉特征的建模、预测方法、装置、设备及存储介质 |
WO2021169477A1 (zh) * | 2020-02-28 | 2021-09-02 | 深圳前海微众银行股份有限公司 | 基于交叉特征的建模、预测方法、装置、设备及存储介质 |
CN111753996A (zh) * | 2020-06-24 | 2020-10-09 | 中国建设银行股份有限公司 | 一种方案确定模型的优化方法、装置、设备及存储介质 |
CN112766514A (zh) * | 2021-01-22 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 一种联合训练机器学习模型的方法、***及装置 |
CN112766514B (zh) * | 2021-01-22 | 2021-12-24 | 支付宝(杭州)信息技术有限公司 | 一种联合训练机器学习模型的方法、***及装置 |
CN112818369A (zh) * | 2021-02-10 | 2021-05-18 | ***股份有限公司 | 一种联合建模方法及装置 |
CN112818369B (zh) * | 2021-02-10 | 2024-03-29 | ***股份有限公司 | 一种联合建模方法及装置 |
CN114187006A (zh) * | 2021-11-03 | 2022-03-15 | 杭州未名信科科技有限公司 | 一种基于区块链监管的联邦学习方法 |
CN115409096A (zh) * | 2022-08-17 | 2022-11-29 | 北京融数联智科技有限公司 | 两方泊松回归隐私计算模型训练方法、装置和存储介质 |
CN115409096B (zh) * | 2022-08-17 | 2023-06-16 | 北京融数联智科技有限公司 | 两方泊松回归隐私计算模型训练方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110837653B (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837653A (zh) | 标签预测方法、装置以及计算机可读存储介质 | |
CN110189192B (zh) | 一种信息推荐模型的生成方法及装置 | |
CN109167695B (zh) | 基于联邦学习的联盟网络构建方法、设备及可读存储介质 | |
KR102215246B1 (ko) | 블록체인 기반 상품 클레임 방법 및 장치, 및 전자 디바이스 | |
CN111008709A (zh) | 联邦学习、资料风险评估方法、装置和*** | |
JP7095140B2 (ja) | 特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体 | |
CN112132198B (zh) | 数据处理方法、装置、***和服务器 | |
WO2020037918A1 (zh) | 基于预测模型的风险控制策略的确定方法及相关装置 | |
US11580417B2 (en) | System and method for processing data and managing information | |
CN104252677A (zh) | 一种基于二维码防伪技术及防伪体系平台*** | |
CN111931076B (zh) | 基于有权有向图进行关系推荐的方法、装置和计算机设备 | |
CN111210003B (zh) | 纵向联邦学习***优化方法、装置、设备及可读存储介质 | |
CN106230867A (zh) | 预测域名是否恶意的方法、***及其模型训练方法、*** | |
CN111666460A (zh) | 基于隐私保护的用户画像生成方法、装置及存储介质 | |
CN111340558B (zh) | 基于联邦学习的线上信息处理方法、装置、设备及介质 | |
CN112465627B (zh) | 基于区块链和机器学习的金融借贷审核方法及*** | |
CN110705585A (zh) | 网络欺诈识别方法、装置、计算机装置及存储介质 | |
CN110516173B (zh) | 一种非法网站识别方法、装置、设备及介质 | |
CN106462706A (zh) | 用于提供基于客户端侧得分的认证的方法和设备 | |
US20150127563A1 (en) | System and method for displaying product certification | |
CN111368196A (zh) | 模型参数的更新方法、装置、设备及可读存储介质 | |
WO2020181854A1 (zh) | 支付异常检测 | |
CN112131471B (zh) | 基于无权无向图进行关系推荐的方法、装置、设备及介质 | |
CN112948274A (zh) | 测试用例评分模型训练方法和测试用例选择方法 | |
CN114186256A (zh) | 神经网络模型的训练方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |