WO2022028045A1 - 数据处理方法、装置、设备及介质 - Google Patents

数据处理方法、装置、设备及介质 Download PDF

Info

Publication number
WO2022028045A1
WO2022028045A1 PCT/CN2021/094938 CN2021094938W WO2022028045A1 WO 2022028045 A1 WO2022028045 A1 WO 2022028045A1 CN 2021094938 W CN2021094938 W CN 2021094938W WO 2022028045 A1 WO2022028045 A1 WO 2022028045A1
Authority
WO
WIPO (PCT)
Prior art keywords
participant
data
model
data processing
processing method
Prior art date
Application number
PCT/CN2021/094938
Other languages
English (en)
French (fr)
Inventor
高大山
刘洋
杨强
鞠策
Original Assignee
深圳前海微众银行股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳前海微众银行股份有限公司 filed Critical 深圳前海微众银行股份有限公司
Publication of WO2022028045A1 publication Critical patent/WO2022028045A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Definitions

  • the second preset prediction model based on the prediction weight of the first participant and the first sample data of the first participant, by executing a second preset federal process, iterates the second preset prediction model to be trained.
  • the steps of training to obtain the second target model include:
  • the first determining module includes:
  • the first execution unit is configured to perform the second preset prediction model to be trained by executing the second preset federal process based on the prediction weight of the first participant and the first sample data of the first party. Iterative training to obtain the second target model;
  • the first receiving sub-unit is configured to receive the initial gradient of the second model sent by the second participant, wherein the initial gradient of the second model is the value obtained by each second participant in the process of executing the second preset federation process based on the corresponding Determined by the second sample data;
  • a first acquisition module configured to acquire data to be processed, and input the data to be processed into the preset prediction model
  • FIG. 5 is a schematic diagram of a second scenario in the data processing method of the application.
  • FIG. 6 is a schematic diagram of a third scenario in the data processing method of the present application.
  • An embodiment of the present application provides a data processing method.
  • the first embodiment of the data processing method of the present application referring to FIG. 1 , it is applied to a first participant, and the first participant communicates with the second participant.
  • the data processing method includes:
  • a preset prediction model of the first participant is determined through federated learning, specifically, horizontal federated learning.
  • the prediction weight of the first participant is determined by the preset prediction model of the first participant in the federation, that is, the application determines the second sample data of different distributions by adding the data ratio, for the first participant has
  • the prediction weight of the actual effective training function is obtained from the preset prediction model of the first participant by the federation, which has the same training weight or prediction weight as each participant in the related technology, resulting in some invalid training data in the data of a certain participant.
  • this application jointly trains the federated model based on the actual and effective training data (occupying the training proportion or the prediction proportion) of each participant, thereby avoiding the efficiency interference caused by invalid data and improving the efficiency of the federated training. And since the training data is valid, the model accuracy of the federated model is improved to improve the prediction performance of the model.
  • An embodiment of the present application provides a data processing method.
  • the sample data in the first participant is the first sample data.
  • the participant prediction weight and the first sample data of the first participant, and the step of determining the preset prediction model of the first participant through federated learning includes:
  • the middle party or a participant based on the prediction weight of the first participant and the first sample data of the first participant, the middle party or a participant performs the second prediction by performing the second prediction.
  • a federated process is set up to perform iterative training on a second preset prediction model to be trained to obtain a second target model, and set the second target model as the preset prediction model of the first participant.
  • the model variables of the second preset prediction model to be trained that are trained and updated are encrypted and sent to an intermediate party associated with the first participant to ensure security, so that the intermediate party can use it for multiple other said first parties.
  • the model variables sent by a participant are aggregated to obtain aggregated model variables, and the model variables are encrypted and fed back to each of the first participants, and the first participant receives the aggregated model variables fed back by the intermediate party, and replace and update the model variables of the second preset prediction model to be trained which is updated by training to the aggregated model variables, and obtain the second preset prediction model to be trained which is replaced and updated.
  • the first participant may also initiate the second federated learning task, the first participant sends the initial model of the second federated learning task to each second participant, and the first participant is based on the local
  • the first sample data respectively trains the initial model in the first participant (wherein, each second participant trains the initial model based on the initial model and the target data, and obtains the trained model of each second participant.
  • the second preset prediction model to be trained is performed by executing the second preset federal process. Iterative training is performed to obtain a second target model; and the second target model is set as the preset prediction model of the first participant. In this embodiment, the preset prediction model is accurately obtained.
  • the first participant and the second participant are communicated and connected through a preset intermediate party;
  • Step D1 Receive the initial gradient based on the second model encrypted and sent by the preset intermediate party, and replace the updated model parameters determined corresponding to the prediction weight of the first participant and the update gradient of the first model.
  • FIG. 3 is a schematic diagram of the device structure of the hardware operating environment involved in the solution of the embodiment of the present application.
  • the data processing device may further include a rectangular user interface, a network interface, a camera, an RF (Radio Frequency, radio frequency) circuit, a sensor, an audio circuit, a WiFi module, and the like.
  • the rectangular user interface may include a display screen (Display), an input sub-module such as a keyboard (Keyboard), and the optional rectangular user interface may also include a standard wired interface and a wireless interface.
  • Optional network interfaces may include standard wired interfaces and wireless interfaces (such as WI-FI interfaces).
  • a receiving unit configured to receive the data ratio sent by each second participant, wherein after each second participant inputs the corresponding second sample data into the corresponding preset domain classification model, the second sample data is performing prediction processing to obtain the data ratio of the target data consistent with the data characteristics of the first participant in the second sample data in the second sample data;
  • the first execution unit is configured to perform the second preset prediction model to be trained by executing the second preset federation process based on the prediction weight of the first participant and the first sample data of the first party. Iterative training to obtain the second target model;
  • a setting unit configured to set the second target model as a preset prediction model of the first participant.
  • an obtaining subunit configured to obtain the second model update gradient of each second participant based on the initial gradient of the second model and the prediction weight corresponding to the first participant;
  • the first participant and the second participant are communicatively connected through a preset intermediate party;
  • the second receiving subunit is configured to receive the initial gradient based on the second model sent by the preset intermediate party, corresponding to the prediction weight of the first participant and the update gradient of the first model, and the determined replacement update model parameter;
  • the second receiving subunit is used to implement:
  • the second obtaining module is configured to perform prediction processing on the data to be processed based on the preset prediction model to obtain a target prediction result.
  • An embodiment of the present application provides a medium, and the medium stores one or more programs, and the one or more programs can also be executed by one or more processors to implement any one of the above The steps of the data processing method.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备和介质,该方法包括:确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;基于各所述数据占比率,确定各第二样本数据的第一参与方预测权重;基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定所述第一参与方的预设预测模型。

Description

数据处理方法、装置、设备及介质
本申请要求2020年8月6日申请的,申请号为202010787792.7,名称为“数据处理方法、装置、设备及介质”的中国专利申请的优先权,在此将其全文引入作为参考。
技术领域
本申请涉及金融科技(Fintech)的人工智能技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对数据处理也有更高的要求。
目前,一方面由于任何一个单一的参与方都不能收集足够的数据来准确构建有效的机器学习模型,另一方面由于隐私保护的需求,致使某一参与方通过联邦学习的方式联合不同的参与方合作训练适合自身任务的模型成为构建需要的目标机器学习模型的主要方式。
相关技术中,在某一参与方联合其他参与方联邦训练自身模型时,各个参与方是具有相同的训练比重或者预测比重的,各个参与方具有相同的训练比重或者预测比重,致使某一参与方数据中部分无效的训练数据占用训练比重或者预测比重,致使训练效率低下且得到的目标模型的预测性能低下。
发明内容
本申请的主要目的在于提供一种数据处理方法、装置、设备和介质,旨在解决相关技术中联邦训练效率低下且得到的联邦标模型的预测性能低下的技术问题。
为实现上述目的,本申请提供一种数据处理方法,应用于第一参与方,所述第一参与方与第二参与方进行通信连接,所述第二参与方为多个,所述数据处理方法包括:
确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;
基于各所述数据占比率,确定各第二样本数据的第一参与方预测权重;
基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定所述第一参与方的预设预测模型。
可选地,所述确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率的步骤,包括:
接收每个第二参与方发送的数据占比率,其中,每个第二参与方将对应第二样本数据输入至相应预设领域分类模型中后,对所述第二样本数据进行预测处理,得到第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;
其中,所述预设领域分类模型是基于具有预设参与方来源标签的训练样本数据,通过执行第一预设联邦流程,对第一预设待训练预测模型进行迭代训练后,获得的预测各参与方数据来源占比率的第一目标模型。
可选地,第一参与方中的样本数据为第一样本数据,所述基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定所述第一参与方的预设预测模型的步骤,包括:
基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型;
将所述第二目标模型设置为所述第一参与方的预设预测模型。
可选地,所述基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型的步骤,包括:
接收第二参与方发送的第二模型初始梯度,其中,所述第二模型初始梯度是各第二参与方在执行第二预设联邦流程过程中,基于对应第二样本数据确定的;
基于所述第二模型初始梯度以及对应所述第一参与方预测权重,获取各第二参与方的第二模型更新梯度;
基于所述第二模型更新梯度,以及第一参与方在执行第二预设联邦流程中,基于所述第一样本数据确定的第一模型更新梯度,确定替换更新模型参 数;
基于所述替换更新模型参数,对第二预设待训练预测模型中的模型参数进行迭代更新,以获得第二目标模型。
可选地,所述第一参与方与第二参与方通过预设中间方通信连接;
所述基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型的步骤,包括:
在执行第二预设联邦流程中,基于所述第一样本数据确定第一模型更新梯度,并将所述第一模型更新梯度发送给预设中间方;
接收预设中间方发送的基于第二模型初始梯度,对应所述第一参与方预测权重以所述及第一模型更新梯度,确定的替换更新模型参数;
其中,第二参与方基于所述第二样本数据,确定第二模型初始梯度,并将第二模型初始梯度加密发送给所述预设中间方;
基于所述替换更新模型参数,对第二预设待训练预测模型中的模型参数进行迭代更新,以获得第二目标模型。
可选地,所述接收预设中间方发送的基于第二模型初始梯度,对应所述第一参与方预测权重以及第一模型更新梯度,确定的替换更新模型参数的步骤,包括:
接收预设中间方加密发送的基于第二模型初始梯度,对应所述第一参与方预测权重以及第一模型更新梯度,确定的替换更新模型参数。
可选地,所述基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,确定所述第一参与方的预设预测模型的步骤之后,所述包括:
获取待处理数据,将所述待处理数据输入至所述预设预测模型中;
基于所述预设预测模型对所述待处理数据进行预测处理,得到目标预测结果。
本申请还提供一种数据处理装置,应用于第一参与方,所述第一参与方与第二参与方进行通信连接,所述第二参与方为多个,所述数据处理装置包括:
第一确定模块,用于确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;
第二确定模块,用于基于各所述数据占比率,确定各第二样本数据的第一参与方预测权重;
第三确定模块,用于基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定所述第一参与方的预设预测模型。
可选地,所述第一确定模块包括:
接收单元,用于接收每个第二参与方发送的数据占比率,其中,每个第二参与方将对应第二样本数据输入至相应预设领域分类模型中后,对所述第二样本数据进行预测处理,得到第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;
其中,所述预设领域分类模型是基于具有预设参与方来源标签的训练样本数据,通过执行第一预设联邦流程,对第一预设待训练预测模型进行迭代训练后,获得的预测各参与方数据来源占比率的第一目标模型。
可选地,第一参与方中的样本数据为第一样本数据,所述第三确定模块包括:
第一执行单元,用于基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型;
设置单元,用于将所述第二目标模型设置为所述第一参与方的预设预测模型。
可选地,所述第一执行单元包括:
第一接收子单元,用于接收第二参与方发送的第二模型初始梯度,其中,所述第二模型初始梯度是各第二参与方在执行第二预设联邦流程过程中,基于对应第二样本数据确定的;
获取子单元,用于基于所述第二模型初始梯度以及对应所述第一参与方预测权重,获取各第二参与方的第二模型更新梯度;
确定子单元,用于基于所述第二模型更新梯度,以及第一参与方在执行第二预设联邦流程中,基于所述第一样本数据确定的第一模型更新梯度,确定替换更新模型参数;
第一更新子单元,用于基于所述替换更新模型参数,对第二预设待训练预测模型中的模型参数进行迭代更新,以获得第二目标模型。
可选地,所述第一参与方与第二参与方通过预设中间方通信连接;
所述第一执行单元还包括:
发送子单元,用于在执行第二预设联邦流程中,基于所述第一样本数据确定第一模型更新梯度,并将所述第一模型更新梯度发送给预设中间方;
第二接收子单元,用于接收预设中间方发送的基于第二模型初始梯度,对应所述第一参与方预测权重以所述及第一模型更新梯度,确定的替换更新模型参数;
其中,第二参与方基于所述第二样本数据,确定第二模型初始梯度,并将第二模型初始梯度加密发送给所述预设中间方;
第二更新子单元,用于基于所述替换更新模型参数,对第二预设待训练预测模型中的模型参数进行迭代更新,以获得第二目标模型。
可选地,所述第二接收子单元用于实现:
接收预设中间方加密发送的基于第二模型初始梯度,对应所述第一参与方预测权重以及第一模型更新梯度,确定的替换更新模型参数。
可选地,所述数据处理装置还包括:
第一获取模块,用于获取待处理数据,将所述待处理数据输入至所述预设预测模型中;
第二获取模块,用于基于所述预设预测模型对所述待处理数据进行预测处理,得到目标预测结果。
本申请还提供一种数据处理设备,所述数据处理设备为实体设备,所述数据处理设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述数据处理方法的程序,所述数据处理方法的程序被处理器执行时可实现如上述的数据处理方法的步骤。
本申请还提供一种介质,所述介质上存储有实现上述数据处理方法的程序,所述数据处理方法的程序被处理器执行时实现如上述的数据处理方法的步骤。
本申请通过确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;基于各所述数据占比率,确定各第二样本数据的第一参与方预测权重;基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定 所述第一参与方的预设预测模型。本申请通过确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率,确定各第二样本数据的第一参与方预测权重,以联邦确定所述第一参与方的预设预测模型,即本申请通过加入数据占比率的方式,确定各不同分布的第二样本数据中,针对第一参与方具有实际有效训练功能的预测权重,以联邦得到第一参与方的预设预测模型,与相关技术中各个参与方具有相同的训练比重或者预测比重,导致某一参与方数据中部分无效的训练数据,占用训练比重或者预测比重相比,本申请基于各个参与方实际有效的(占用训练比重或者预测比重的)训练数据联合训练联邦模型,进而,避免无效数据所造成的效率干扰,提升联邦训练效率,且由于训练数据是有效的,因而提升联邦模型的模型准确度,以提升模型的预测性能。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请数据处理方法第一实施例的流程示意图;
图2为本申请数据处理方法第一实施例中对待识别语音数据进行语音识别得到所述待识别语音数据的各候选结果的步骤细化流程示意图;
图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图;
图4为本申请数据处理方法中的第一场景示意图;
图5为本申请数据处理方法中的第二场景示意图;
图6为本申请数据处理方法中的第三场景示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种数据处理方法,在本申请数据处理方法的第一实施例中,参照图1,应用于第一参与方,所述第一参与方与第二参与方进行通信连接,所述第二参与方为多个,所述数据处理方法包括:
步骤S10,确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;
步骤S20,基于各所述数据占比率,确定各第二样本数据的第一参与方预测权重;
步骤S30,基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定所述第一参与方的预设预测模型。
具体步骤如下:
步骤S10,确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;
整体地,所述预设预测模型是基于多个带有第一参与方预测权重的第二参与方数据(第二样本数据)以及第一参与方的第一样本数据,通过联邦学习,对第一预设待训练预测模型进行迭代训练,获得的第一目标模型;
在本实施例中,在得到预设预测模型后,获取待处理数据,将所述待处理数据输入至预设预测模型中,其中,预设预测模型是已经训练好的,能够对待处理数据进行准确预测的模型,例如,若待处理数据中包含有用户的年龄,体重,血糖含量,胰岛素水平数据,则将待处理数据输入至预设预测模型中后,可以确定输出用户是否具有糖尿病的结果。
需要说明的是,在本实施例中,联邦学习包括横向联邦学习或者纵向联邦学习,联邦流程包括横向联邦流程以及纵向联邦流程,在本实施例中以横向联邦学习应用为例进行具体说明。
需要说明的是,第一参与方中包括所有标注(有标签)数据与无标注数据的数据并集,i为P i的编号,对于确定的参与方(包括第一参与方与第二参与方)而言,X对Y服从相同的条件分布,即 P(Y|X i)=P(Y|X j),
Figure PCTCN2021094938-appb-000001
而来自不同的参与方的数据边缘分布不同。具体地,例如,医院积累的数据往往来自患病人群,养老院积累的数据为老年人群,身体疾病状况差异较大,而体检中心的机器学习任务多数针对青壮年在职成人,现有医院在联合养老院以及体检中心等共同训练机器 模型时,医院,养老院以及体检中心等参与方具有相同的训练比重或者预测比重,即默认医院,养老院以及体检中心等参与方的数据特征与医院数据的特征相同,而实际上不同参与方数据是异质的,基于相同的训练比重或者预测比重致使医院机器模型的训练数据的有效性低下,致使联邦学习训练得到的模型的预测性能低下。
在本实施例中,可以通过确定每个第二样本数据中,与第一参与方数据特征一致的目标数据,以进一步确定目标数据在所述第二样本数据中的数据占比率,或者直接确定目标数据在所述第二样本数据中的数据占比率,其中,第一参与方基于本地的训练数据,训练对应本地的模型外,还确定其他第二参与方的第二样本数据中的目标数据,以确定目标(有效数据)在所述第二样本数据中的数据占比率,以提升该第一参与方本地模型的训练有效性,具体地,例如,多个第二参与方如参与方A和参与方C,共同训练参与方B(第一参与方)的模型,为了确保用户的隐私,且由于初始模型是相同的,在本实施例中,参与方A和参与方C共同训练参与方B的模型的方式为:选取参与方A中对参与方B有效的目标数据,得到参与方A中对参与方B有效的数据占比率,即来自参与方A的有标注(预设特征标签)数据被判定为参与方B(或者具有第一参与方B数据特征)的有标注数据的概率,进而求得来自参与方A的有标注数据用于训练参与方B的模型过程中所对应的第一权重,选取参与方C中对参与方B有效的目标数据,以确定来自参与方C的有标注数据被判定为参与方B的有标注数据(或者具有第一参与方B数据特征)的概率,求得来自参与方C的第二样本数据用于训练参与方B的模型过程中所对应的数据占比率,基于该参与方A的数据占比率以及参与方C的数据占比率,可以联合计算得到第一参与方的需要聚合更新的模型参数,例如,分别获取参与方A自身标注数据乘以A对参与方B的数据占比率,参与方C自身标注数据乘以对参与方B的数据占比率,进而通过预设计算公式可以联合计算得到第一参与方B的需要聚合更新的模型参数,第二参与方A的需要聚合更新的模型参数,第二参与方C的需要聚合更新的模型参数,具体如图4,图5,图6所示。
所述确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率的步骤,包括:
步骤S11,接收每个第二参与方发送的数据占比率,其中,每个第二参与方将对应第二样本数据输入至相应预设领域分类模型中后,对所述第二样本数据进行预测处理,得到第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;
其中,所述预设领域分类模型是基于具有预设参与方来源标签的训练样本数据,通过执行第一预设联邦流程,对第一预设待训练预测模型进行迭代训练后,获得的预测各参与方数据来源占比率的第一目标模型。
在本实施例中,是通过预设领域分类模型确定来自第二参与方的有标注数据被判定为第一参与方的有标注数据(与第一参与方数据特征一致)的概率即数据占比率。
整体地,预设领域分类模型是已经通过预设n个参与方的训练数据进行横向联邦得到的,其中,预设领域分类器中的输出层经过预设Sigmoid激活函数处理后,输出一个维度为n的向量,每一个维度输出值在(0,1)区间,输出第i个维度的输出值用于表示输入数据为第i个参与方训练的概率即数据占比率。
在本实施例中,所述预设领域分类模型是已经训练好的,即是基于具有预设参与方来源标签的训练样本数据,通过执行第一预设联邦流程,对第一预设待训练预测模型进行迭代训练后,获得的预测各参与方数据来源占比率的第一目标模型,因而,每个第二参与方将对应第二样本数据输入至相应预设领域分类模型中后,对所述第二样本数据进行预测处理,得到第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率。
具体地,在本实施例中,基于具有预设参与方来源标签的参与方数据,通过执行第一预设联邦流程,对第一预设待训练预测模型进行迭代训练,得到预测参与方数据来源数据占比率的第一目标模型,例如,第一参与方发起第一联邦学习任务,第一参与方将第一联邦学习任务的第一预设待训练预测模型发送给各个第二参与方,第一参与方基于本地的训练数据,对第一预设待训练预测模型进行训练,得到第一参与方训练后的模型参数,在得到第一参与方训练后的模型参数后,执行第一预设横向联邦流程,获取得到第一联合模型参数(包括其他第二参与方的部分联合模型参数),在得到第一联合模型参数后,持续进行第一横向联邦流程,以供第一参与方得到第二目标联 合模型参数,以基于第二目标联合模型参数继续执行第一横向两帮流程,以最终得到第一目标模型,在得到第一目标模型的过程中,是学习到了各个参与方数据的隐含特征的,因而,在预设领域分类模型中设置预设Sigmoid激活函数,可以得到并输出第i个维度的输出值用于表示输入数据为第i个参与方的概率或者数据占比率。
具体地,例如,多个第二参与方为参与方A和参与方C,第一参与方为参与方B,那么对于参与方B而言,需要经过预设领域分类模型获取参与方A中第二样本数据用于训练参与方B模型的数据占比率,并需要经过预设领域分类模型获取参与方C第二样本数据中用于训练参与方B模型的数据占比率,对于参与方A而言,需要经过预设领域分类模型获取参与方B中第一样本数据用于训练参与方A模型的数据占比率,并需要经过预设领域分类模型获取参与方C第二样本数据中用于训练参与方A模型的数据占比率,对于参与方C而言,需要经过预设领域分类模型获取参与方A第二样本数据中用于训练参与方B模型的数据占比率,并需要经过预设领域分类模型获取参与方C第二样本数据中用于训练参与方B模型的数据占比率,也即,对于每一个参与方而言,将本地所有标注数据输入至预设领域分类模型中,求得第 i个输出值P(x ik∈j)=f θ(x k) j
Figure PCTCN2021094938-appb-000002
表示来自参与方P i的有标注样本x ik被判定为参与方P j的有标注数据的概率。
步骤S20,基于各所述数据占比率,确定各第二样本数据的第一参与方预测权重;
在得到数据占比率即概率后,根据预设领域分类模型中的如下计算公式计算参与方P i的有标注样本x ik用于训练参与方P j的模型过程中所对应的预测权重
Figure PCTCN2021094938-appb-000003
步骤S30,基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定所述第一参与方的预设预测模型。
基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习,具体地,通过横向联邦学习确定所述第一参与方的预设预测模型。
所述基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,确定所述第一参与方的预设预测模型的步骤之后,所述包括:
步骤S40,获取待处理数据,将所述待处理数据输入至所述预设预测模型中;
步骤S50,基于所述预设预测模型对所述待处理数据进行预测处理,得到目标预测结果。
在本实施例中,在得到预设预测模型后,获取待处理数据,将所述待处理数据输入至所述预设预测模型中,得到目标预测结果。
本申请通过确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;基于各所述数据占比率,确定各第二样本数据的第一参与方预测权重;基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定所述第一参与方的预设预测模型。本申请通过确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率,确定各第二样本数据的第一参与方预测权重,以联邦确定所述第一参与方的预设预测模型,即本申请通过加入数据占比率的方式,确定各不同分布的第二样本数据中,针对第一参与方具有实际有效训练功能的预测权重,以联邦得到第一参与方的预设预测模型,与相关技术中各个参与方具有相同的训练比重或者预测比重,导致某一参与方数据中部分无效的训练数据,占用训练比重或者预测比重相比,本申请基于各个参与方实际有效的(占用训练比重或者预测比重的)训练数据联合训练联邦模型,进而,避免无效数据所造成的效率干扰,提升联邦训练效率,且由于训练数据是有效的,因而提升联邦模型的模型准确度,以提升模型的预测性能。
本申请实施例提供一种数据处理方法,在本申请数据处理方法的另一实施例中,参照图2,第一参与方中的样本数据为第一样本数据,所述基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定所述第一参与方的预设预测模型的步骤,包括:
步骤S31,基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型;
步骤S32,将所述第二目标模型设置为所述第一参与方的预设预测模型。
需要说明的是,在本实施例中,基于所述第一参与方预测权重,以及所 述第一参与方的第一样本数据,在中间方或者是在某一参与方通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型,将所述第二目标模型设置为所述第一参与方的预设预测模型。
具体地,在本实施例中,存在协调方,该协调方分别与第一参与方和第二参与方进行通信,在联邦模型训练前,可以是协调方(coordinator)发起第二联邦学习任务,协调方将第二联邦学习任务的初始模型(第二预设待训练预测模型)发送给各个参与方,对于第一参与方而言,第一参与方基于第二预设待训练预测模型,第一参与方本地的训练数据对第一参与方中的初始模型进行训练,得到第一参与方训练后的模型参数,在得到第一参与方训练后的模型参数后,执行第二预设横向联邦流程(其中,各个第二参与方基于初始模型,各个第二参与方得到的第一参与方预测权重的目标数据,对第二预设待训练预测模型进行训练,得到每个第二参与方训练后的模型参数),具体地,基于协调方联合各个第二参与方的训练后的模型参数(加密的)得到的第一联合模型参数,第一参与方继续进行训练并执行第二预设横向联邦流程直至达到预设结束条件,得到第二目标模型。
其中,执行第一预设横向联邦流程的过程具体可以为:对所述第二预设待训练预测模型进行迭代训练,判断迭代训练的所述第二预设待训练预测模型是否达到预设替换更新条件,如是否迭代训练500次,若所述第二预设待训练预测模型达到预设替换更新条件,则通过执行所述第二预设横向联邦流程,对训练更新的所述第二预设待训练预测模型的模型变量进行替换更新,获得替换更新的所述第二预设待训练预测模型。
将训练更新的所述第二预设待训练预测模型的模型变量加密发送至与所述第一参与方关联的中间方,以确保安全性,以供所述中间方对多个其他所述第一参与方发送的模型变量进行聚合处理,获得聚合模型变量,并将所述模型变量加密反馈至各所述第一参与方,第一参与方接收所述中间方反馈的所述聚合模型变量,并将训练更新的所述第二预设待训练预测模型的模型变量替换更新为所述聚合模型变量,获得替换更新的所述第二预设待训练预测模型。
持续对替换更新的所述第二预设待训练预测模型进行迭代训练和替换更新,直至所述第二预设待训练模型满足预设训练完成条件,预设训练完成条 件可以是训练次数达到确定数据,如是1万次或者是5000次,或者预设训练完成条件可以是对应损失函数收敛。以得到第二目标模型。
另外,在本实施例中,还可以是第一参与方发起第二联邦学习任务,第一参与方将第二联邦学习任务的初始模型发送给各个第二参与方,第一参与方基于本地的第一样本数据,分别对第一参与方中的初始模型进行训练(其中,各个第二参与方基于初始模型,以及目标数据,对初始模型进行训练,得到每个第二参与方训练后的模型参数),得到第一参与方训练后的模型参数,在得到第一参与方训练后的模型参数后,执行第一预设横向联邦流程,具体地,基于第一参与方联合各个其他第二参与方的训练后的模型参数得到的第一联合模型参数,继续进行训练并执行第二预设横向联邦流程直至达到预设结束条件,得到第二目标模型。
在本实施例中,通过基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型;将所述第二目标模型设置为所述第一参与方的预设预测模型。本实施例中实现准确得到预设预测模型。
本申请实施例提供一种数据处理方法,在本申请数据处理方法的另一实施例中,所述基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型的步骤,包括:
步骤B1,接收第二参与方发送的第二模型初始梯度,其中,所述第二模型初始梯度是各第二参与方在执行第二预设联邦流程过程中,基于对应第二样本数据确定的;
步骤B2,基于所述第二模型初始梯度以及对应所述第一参与方预测权重,获取各第二参与方的第二模型更新梯度;
步骤B3,基于所述第二模型更新梯度,以及第一参与方在执行第二预设联邦流程中,基于所述第一样本数据确定的第一模型更新梯度,确定替换更新模型参数;
步骤B4,基于所述替换更新模型参数,对第二预设待训练预测模型中的模型参数进行迭代更新,以获得第二目标模型。
在本实施例中,模型参数可以是通过梯度得到的,首先接收第二参与方发送的第二模型初始梯度,其中,所述第二模型初始梯度是各第二参与方在执行第二预设联邦流程过程中,基于对应第二样本数据确定的,在得到第二模型初始梯度后,基于所述第二模型初始梯度以及对应所述第一参与方预测权重,获取各第二参与方的第二模型更新梯度,具体地,上标lb是标注的意思,每一个参与方将本地所有标注数据(第二样本数据)
Figure PCTCN2021094938-appb-000004
输入领域分类模型θ中,求得第 i个输出值
P(x ikj)=f θ(x k) j
Figure PCTCN2021094938-appb-000005
表示来自参与方P i的有标注样本x ik被判定为参与方P j的有标注数据集
Figure PCTCN2021094938-appb-000006
的概率,根据领域分类模型中如下计算公式计算参与方P i的有标注样本x ik用于训练参与方P j的模型过程中所对应的权重
Figure PCTCN2021094938-appb-000007
即第一参与方预测权重,其中N是所有参与方有标注数据的总量,Nj是Pj的有标注训练数据量,得到第一参与方预测权重后,乘以相应的第二模型更新梯度,得到第二模型更新梯度。
基于所述第二模型更新梯度,以及第一参与方在执行第二预设联邦流程中,基于所述第一样本数据确定的第一模型更新梯度,确定替换更新模型参数,基于所述替换更新模型参数,对第二预设待训练预测模型中的模型参数进行迭代更新如迭代更新500次,以获得第二目标模型。
所述第一参与方与第二参与方通过预设中间方通信连接;
所述基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型的步骤,包括:
步骤C1,在执行第二预设联邦流程中,基于所述第一样本数据确定第一模型更新梯度,并将所述第一模型更新梯度发送给预设中间方;
步骤C2,接收预设中间方发送的基于第二模型初始梯度,对应所述第一参与方预测权重以所述及第一模型更新梯度,确定的替换更新模型参数;
其中,第二参与方基于所述第二样本数据,确定第二模型初始梯度,并将第二模型初始梯度加密发送给所述预设中间方;
步骤C3,基于所述替换更新模型参数,对第二预设待训练预测模型中的模型参数进行迭代更新,以获得第二目标模型。
在本实施例中,第一参与方以及第二参与方可以是通过中间方进行梯度 的聚合,以确定的替换更新模型参数,以实现最终得到目标模型。
所述接收预设中间方发送的基于第二模型初始梯度,对应所述第一参与方预测权重以及第一模型更新梯度,确定的替换更新模型参数的步骤,包括:
步骤D1,接收预设中间方加密发送的基于第二模型初始梯度,对应所述第一参与方预测权重以及第一模型更新梯度,确定的替换更新模型参数。
在本实施例中,第一参与方以及第二参与方可以是通过中间方进行梯度的聚合,且在聚合后,中间方加密反馈的替换更新模型参数,以提升横向联邦过程中的安全性。
在本实施例中,通过接收第二参与方发送的第二模型初始梯度,其中,所述第二模型初始梯度是各第二参与方在执行第二预设联邦流程过程中,基于对应第二样本数据确定的;基于所述第二模型初始梯度以及对应所述第一参与方预测权重,获取各第二参与方的第二模型更新梯度;基于所述第二模型更新梯度,以及第一参与方在执行第二预设联邦流程中,基于所述第一样本数据确定的第一模型更新梯度,确定替换更新模型参数;基于所述替换更新模型参数,对第二预设待训练预测模型中的模型参数进行迭代更新,以获得第二目标模型。在本实施例中,实现准确得到第二目标模型。
参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图3所示,该数据处理设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该数据处理设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的数据处理设备结构并不构成对数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件, 或者不同的部件布置。
如图3所示,作为一种计算机介质的存储器1005中可以包括操作***、网络通信模块以及数据处理程序。操作***是管理和控制数据处理设备硬件和软件资源的程序,支持数据处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与数据处理***中其它硬件和软件之间通信。
在图3所示的数据处理设备中,处理器1001用于执行存储器1005中存储的数据处理程序,实现上述任一项所述的数据处理方法的步骤。
本申请数据处理设备具体实施方式与上述数据处理方法各实施例基本相同,在此不再赘述。
本申请还提供一种数据处理装置,应用于第一参与方,所述第一参与方与第二参与方进行通信连接,所述第二参与方为多个,所述数据处理装置包括:
第一确定模块,用于确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;
第二确定模块,用于基于各所述数据占比率,确定各第二样本数据的第一参与方预测权重;
第三确定模块,用于基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定所述第一参与方的预设预测模型。
可选地,所述第一确定模块包括:
接收单元,用于接收每个第二参与方发送的数据占比率,其中,每个第二参与方将对应第二样本数据输入至相应预设领域分类模型中后,对所述第二样本数据进行预测处理,得到第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;
其中,所述预设领域分类模型是基于具有预设参与方来源标签的训练样本数据,通过执行第一预设联邦流程,对第一预设待训练预测模型进行迭代训练后,获得的预测各参与方数据来源占比率的第一目标模型。
可选地,第一参与方中的样本数据为第一样本数据,所述第三确定模块包括:
第一执行单元,用于基于所述第一参与方预测权重,以及所述第一参与 方的第一样本数据,通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型;
设置单元,用于将所述第二目标模型设置为所述第一参与方的预设预测模型。
可选地,所述第一执行单元包括:
第一接收子单元,用于接收第二参与方发送的第二模型初始梯度,其中,所述第二模型初始梯度是各第二参与方在执行第二预设联邦流程过程中,基于对应第二样本数据确定的;
获取子单元,用于基于所述第二模型初始梯度以及对应所述第一参与方预测权重,获取各第二参与方的第二模型更新梯度;
确定子单元,用于基于所述第二模型更新梯度,以及第一参与方在执行第二预设联邦流程中,基于所述第一样本数据确定的第一模型更新梯度,确定替换更新模型参数;
第一更新子单元,用于基于所述替换更新模型参数,对第二预设待训练预测模型中的模型参数进行迭代更新,以获得第二目标模型。
可选地,所述第一参与方与第二参与方通过预设中间方通信连接;
所述第一执行单元还包括:
发送子单元,用于在执行第二预设联邦流程中,基于所述第一样本数据确定第一模型更新梯度,并将所述第一模型更新梯度发送给预设中间方;
第二接收子单元,用于接收预设中间方发送的基于第二模型初始梯度,对应所述第一参与方预测权重以所述及第一模型更新梯度,确定的替换更新模型参数;
其中,第二参与方基于所述第二样本数据,确定第二模型初始梯度,并将第二模型初始梯度加密发送给所述预设中间方;
第二更新子单元,用于基于所述替换更新模型参数,对第二预设待训练预测模型中的模型参数进行迭代更新,以获得第二目标模型。
可选地,所述第二接收子单元用于实现:
接收预设中间方加密发送的基于第二模型初始梯度,对应所述第一参与方预测权重以及第一模型更新梯度,确定的替换更新模型参数。
可选地,所述数据处理装置还包括:
第一获取模块,用于获取待处理数据,将所述待处理数据输入至所述预设预测模型中;
第二获取模块,用于基于所述预设预测模型对所述待处理数据进行预测处理,得到目标预测结果。
本申请数据处理装置的具体实施方式与上述数据处理方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种介质,且所述介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的数据处理方法的步骤。
本申请介质具体实施方式与上述数据处理方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (20)

  1. 一种数据处理方法,其中,应用于第一参与方,所述第一参与方与第二参与方进行通信连接,所述第二参与方为多个,所述数据处理方法包括:
    确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;
    基于各所述数据占比率,确定各第二样本数据的第一参与方预测权重;
    基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定所述第一参与方的预设预测模型。
  2. 如权利要求1所述数据处理方法,其中,所述确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率的步骤,包括:
    接收每个第二参与方发送的数据占比率,其中,每个第二参与方将对应第二样本数据输入至相应预设领域分类模型中后,对所述第二样本数据进行预测处理,得到第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;
    其中,所述预设领域分类模型是基于具有预设参与方来源标签的训练样本数据,通过执行第一预设联邦流程,对第一预设待训练预测模型进行迭代训练后,获得的预测各参与方数据来源占比率的第一目标模型。
  3. 如权利要求1所述数据处理方法,其中,第一参与方中的样本数据为第一样本数据,所述基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定所述第一参与方的预设预测模型的步骤,包括:
    基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型;
    将所述第二目标模型设置为所述第一参与方的预设预测模型。
  4. 如权利要求3所述数据处理方法,其中,所述基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型的步骤,包括:
    接收第二参与方发送的第二模型初始梯度,其中,所述第二模型初始梯度是各第二参与方在执行第二预设联邦流程过程中,基于对应第二样本数据确定的;
    基于所述第二模型初始梯度以及对应所述第一参与方预测权重,获取各第二参与方的第二模型更新梯度;
    基于所述第二模型更新梯度,以及第一参与方在执行第二预设联邦流程中,基于所述第一样本数据确定的第一模型更新梯度,确定替换更新模型参数;
    基于所述替换更新模型参数,对第二预设待训练预测模型中的模型参数进行迭代更新,以获得第二目标模型。
  5. 如权利要求4所述数据处理方法,其中,所述第一参与方与第二参与方通过预设中间方通信连接;
    所述基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过执行第二预设联邦流程,对第二预设待训练预测模型进行迭代训练,获得第二目标模型的步骤,包括:
    在执行第二预设联邦流程中,基于所述第一样本数据确定第一模型更新梯度,并将所述第一模型更新梯度发送给预设中间方;
    接收预设中间方发送的基于第二模型初始梯度,对应所述第一参与方预测权重以所述及第一模型更新梯度,确定的替换更新模型参数;
    其中,第二参与方基于所述第二样本数据,确定第二模型初始梯度,并将第二模型初始梯度加密发送给所述预设中间方;
    基于所述替换更新模型参数,对第二预设待训练预测模型中的模型参数进行迭代更新,以获得第二目标模型。
  6. 如权利要求5所述数据处理方法,其中,所述接收预设中间方发送的基于第二模型初始梯度,对应所述第一参与方预测权重以及第一模型更新梯度,确定的替换更新模型参数的步骤,包括:
    接收预设中间方加密发送的基于第二模型初始梯度,对应所述第一参与方预测权重以及第一模型更新梯度,确定的替换更新模型参数。
  7. 如权利要求1所述数据处理方法,其中,所述基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,确定所述第一参与方的预设 预测模型的步骤之后,所述包括:
    获取待处理数据,将所述待处理数据输入至所述预设预测模型中;
    基于所述预设预测模型对所述待处理数据进行预测处理,得到目标预测结果。
  8. 一种数据处理装置,其中,应用于第一参与方,所述第一参与方与第二参与方进行通信连接,所述第二参与方为多个,所述数据处理装置包括:
    第一确定模块,用于确定各所述第二参与方各自的第二样本数据中,与第一参与方数据特征一致的目标数据在所述第二样本数据中的数据占比率;
    第二确定模块,用于基于各所述数据占比率,确定各第二样本数据的第一参与方预测权重;
    第三确定模块,用于基于所述第一参与方预测权重,以及所述第一参与方的第一样本数据,通过联邦学习确定所述第一参与方的预设预测模型。
  9. 一种数据处理设备,其中,所述数据处理设备包括:存储器、处理器以及存储在存储器上的用于实现所述数据处理方法的程序,
    所述存储器用于存储实现数据处理方法的程序;
    所述处理器用于执行实现所述数据处理方法的程序,以实现如权利要求1所述数据处理方法的步骤。
  10. 一种数据处理设备,其中,所述数据处理设备包括:存储器、处理器以及存储在存储器上的用于实现所述数据处理方法的程序,
    所述存储器用于存储实现数据处理方法的程序;
    所述处理器用于执行实现所述数据处理方法的程序,以实现如权利要求2所述数据处理方法的步骤。
  11. 一种数据处理设备,其中,所述数据处理设备包括:存储器、处理器以及存储在存储器上的用于实现所述数据处理方法的程序,
    所述存储器用于存储实现数据处理方法的程序;
    所述处理器用于执行实现所述数据处理方法的程序,以实现如权利要求3所述数据处理方法的步骤。
  12. 一种数据处理设备,其中,所述数据处理设备包括:存储器、处理器以及存储在存储器上的用于实现所述数据处理方法的程序,
    所述存储器用于存储实现数据处理方法的程序;
    所述处理器用于执行实现所述数据处理方法的程序,以实现如权利要求4所述数据处理方法的步骤。
  13. 一种数据处理设备,其中,所述数据处理设备包括:存储器、处理器以及存储在存储器上的用于实现所述数据处理方法的程序,
    所述存储器用于存储实现数据处理方法的程序;
    所述处理器用于执行实现所述数据处理方法的程序,以实现如权利要求5所述数据处理方法的步骤。
  14. 一种数据处理设备,其中,所述数据处理设备包括:存储器、处理器以及存储在存储器上的用于实现所述数据处理方法的程序,
    所述存储器用于存储实现数据处理方法的程序;
    所述处理器用于执行实现所述数据处理方法的程序,以实现如权利要求6所述数据处理方法的步骤。
  15. 一种介质,其中,所述介质上存储有实现数据处理方法的程序,所述实现数据处理方法的程序被处理器执行以实现如权利要求1所述数据处理方法的步骤。
  16. 一种介质,其中,所述介质上存储有实现数据处理方法的程序,所述实现数据处理方法的程序被处理器执行以实现如权利要求2所述数据处理方法的步骤。
  17. 一种介质,其中,所述介质上存储有实现数据处理方法的程序,所述实现数据处理方法的程序被处理器执行以实现如权利要求3所述数据处理方法的步骤。
  18. 一种介质,其中,所述介质上存储有实现数据处理方法的程序,所述实现数据处理方法的程序被处理器执行以实现如权利要求4所述数据处理方法的步骤。
  19. 一种介质,其中,所述介质上存储有实现数据处理方法的程序,所述实现数据处理方法的程序被处理器执行以实现如权利要求5所述数据处理方法的步骤。
  20. 一种介质,其中,所述介质上存储有实现数据处理方法的程序,所述实现数据处理方法的程序被处理器执行以实现如权利要求6所述数据处理方法的步骤。
PCT/CN2021/094938 2020-08-06 2021-05-20 数据处理方法、装置、设备及介质 WO2022028045A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010787792.7 2020-08-06
CN202010787792.7A CN111898768A (zh) 2020-08-06 2020-08-06 数据处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
WO2022028045A1 true WO2022028045A1 (zh) 2022-02-10

Family

ID=73246120

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/094938 WO2022028045A1 (zh) 2020-08-06 2021-05-20 数据处理方法、装置、设备及介质

Country Status (2)

Country Link
CN (1) CN111898768A (zh)
WO (1) WO2022028045A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114334158A (zh) * 2022-03-07 2022-04-12 广州帝隆科技股份有限公司 一种基于物联网的监护管理方法及***
CN114548429A (zh) * 2022-04-27 2022-05-27 蓝象智联(杭州)科技有限公司 一种安全高效的横向联邦神经网络模型训练方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898768A (zh) * 2020-08-06 2020-11-06 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及介质
CN112686388A (zh) * 2020-12-10 2021-04-20 广州广电运通金融电子股份有限公司 一种在联邦学习场景下的数据集划分方法及***
CN112750038B (zh) * 2021-01-14 2024-02-02 中国工商银行股份有限公司 交易风险的确定方法、装置和服务器
CN113158223A (zh) * 2021-01-27 2021-07-23 深圳前海微众银行股份有限公司 基于状态转移核优化的数据处理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490335A (zh) * 2019-08-07 2019-11-22 深圳前海微众银行股份有限公司 一种计算参与者贡献率的方法及装置
US20200027019A1 (en) * 2019-08-15 2020-01-23 Lg Electronics Inc. Method and apparatus for learning a model to generate poi data using federated learning
CN111091200A (zh) * 2019-12-20 2020-05-01 深圳前海微众银行股份有限公司 训练模型的更新方法、***、智能体、服务器及存储介质
CN111355739A (zh) * 2020-03-06 2020-06-30 深圳前海微众银行股份有限公司 横向联邦学习的数据传输方法、装置、终端设备及介质
CN111898768A (zh) * 2020-08-06 2020-11-06 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10755199B2 (en) * 2017-05-30 2020-08-25 Adobe Inc. Introspection network for training neural networks
CN109165683B (zh) * 2018-08-10 2023-09-12 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN109284313B (zh) * 2018-08-10 2021-08-27 深圳前海微众银行股份有限公司 基于半监督学习的联邦建模方法、设备及可读存储介质
CN111340614B (zh) * 2020-02-28 2021-05-18 深圳前海微众银行股份有限公司 基于联邦学习的样本采样方法、设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490335A (zh) * 2019-08-07 2019-11-22 深圳前海微众银行股份有限公司 一种计算参与者贡献率的方法及装置
US20200027019A1 (en) * 2019-08-15 2020-01-23 Lg Electronics Inc. Method and apparatus for learning a model to generate poi data using federated learning
CN111091200A (zh) * 2019-12-20 2020-05-01 深圳前海微众银行股份有限公司 训练模型的更新方法、***、智能体、服务器及存储介质
CN111355739A (zh) * 2020-03-06 2020-06-30 深圳前海微众银行股份有限公司 横向联邦学习的数据传输方法、装置、终端设备及介质
CN111898768A (zh) * 2020-08-06 2020-11-06 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114334158A (zh) * 2022-03-07 2022-04-12 广州帝隆科技股份有限公司 一种基于物联网的监护管理方法及***
CN114548429A (zh) * 2022-04-27 2022-05-27 蓝象智联(杭州)科技有限公司 一种安全高效的横向联邦神经网络模型训练方法

Also Published As

Publication number Publication date
CN111898768A (zh) 2020-11-06

Similar Documents

Publication Publication Date Title
WO2022028045A1 (zh) 数据处理方法、装置、设备及介质
US11960571B2 (en) Method and apparatus for training image recognition model, and image recognition method and apparatus
WO2023005133A1 (zh) 联邦学习建模优化方法、设备、可读存储介质及程序产品
CN111126574B (zh) 基于内镜图像对机器学习模型进行训练的方法、装置和存储介质
WO2021147217A1 (zh) 医疗影像分类方法、装置、介质及电子设备
WO2021083276A1 (zh) 横向联邦和纵向联邦联合方法、装置、设备及介质
CN107729929B (zh) 用于获取信息的方法及装置
Wang et al. Big data requirements for artificial intelligence
Dasaradharami Reddy et al. A comprehensive survey on federated learning techniques for healthcare informatics
WO2020186887A1 (zh) 一种连续小样本图像的目标检测方法、装置及设备
WO2021258882A1 (zh) 基于循环神经网络的数据处理方法、装置、设备及介质
Abdi et al. Quality assessment of echocardiographic cine using recurrent neural networks: Feasibility on five standard view planes
EP3353670A1 (en) Regularized model adaptation for in-session recommendations
WO2021139462A1 (zh) 逐步模型选择方法、设备及可读存储介质
US20220130525A1 (en) Artificial intelligence orchestration engine for medical studies
CN112785144A (zh) 基于联邦学习的模型构建方法、设备及存储介质
WO2020118101A1 (en) System and method for providing personalized health data
WO2022194152A1 (zh) 基于图像处理模型的图像处理方法、装置、电子设备、存储介质及计算机程序产品
CN113012803A (zh) 计算机设备、***、可读存储介质及医学数据分析方法
WO2021139483A1 (zh) 向前模型选择方法、设备和可读存储介质
Yuan et al. A Time Series-Based Approach to Elastic Kubernetes Scaling
CN112397194B (zh) 用于生成患者病情归因解释模型的方法、装置和电子设备
Fu et al. Fractional dynamic analysis and optimal control problem for an SEIQR model on complex networks
US10304007B2 (en) Using a plurality of heterogeneous decision engines to produce a single decision
US11688175B2 (en) Methods and systems for the automated quality assurance of annotated images

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21853655

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21853655

Country of ref document: EP

Kind code of ref document: A1