CN111914277A - 交集数据的生成方法和基于交集数据的联邦模型训练方法 - Google Patents

交集数据的生成方法和基于交集数据的联邦模型训练方法 Download PDF

Info

Publication number
CN111914277A
CN111914277A CN202010786660.2A CN202010786660A CN111914277A CN 111914277 A CN111914277 A CN 111914277A CN 202010786660 A CN202010786660 A CN 202010786660A CN 111914277 A CN111914277 A CN 111914277A
Authority
CN
China
Prior art keywords
data
intersection
information
user
encrypted data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010786660.2A
Other languages
English (en)
Other versions
CN111914277B (zh
Inventor
周学立
张茜
凌海挺
蔡满天
刘丽扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010786660.2A priority Critical patent/CN111914277B/zh
Publication of CN111914277A publication Critical patent/CN111914277A/zh
Priority to PCT/CN2020/135269 priority patent/WO2021139476A1/zh
Application granted granted Critical
Publication of CN111914277B publication Critical patent/CN111914277B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Storage Device Security (AREA)

Abstract

本发明涉及大数据领域,提供了一种交集数据生成方法,所述方法包括:接收数据请求终端发送的ID交集请求,所述ID交集请求携带有至少一个用户ID信息;响应于所述ID交集请求;接收所述第二加密数据和所述第三加密数据;将所述第一加密数据、所述第二加密数据和所述第三加密数据输入到预先配置好的交集模型中进行交集处理,以得到交集数据集和非交集数据集;对所述非交集数据集中的每个非交集数据进行特征标签化处理,以生成多个虚拟特征;及将所述交集数据集和所述多个虚拟特征发送到数据请求终端进行联邦训练,并将所述交集数据集和所述多个虚拟特征上传到区块链中。本发明解决了联邦学习容易造成用户信息的泄露,提高了用户的数据安全性。

Description

交集数据的生成方法和基于交集数据的联邦模型训练方法
技术领域
本发明实施例涉及数据传输领域,尤其涉及一种交集数据的生成方法和基于交集数据的联邦模型训练方法、***、计算机设备及计算机可读存储介质。
背景技术
随着大数据时代的来临,在互联网领域中数据孤岛的问题越来越突出。而联邦学习的出现,在一定程度上为解决互联网领域中数据孤岛的问题起到了至关重要的作用。目前,联邦学习主要是通过对用户ID的进行交集匹配,并在匹配成功后,通过交集部分ID用户的完成联邦学习,从而解决数据孤岛问题。但是容易造成用户的非交集部分信息的泄露,存在一定的安全隐患。因此,如何可以安全可靠的保证用户信息的***露情况下进行联邦学习成为了当前要解决的技术问题之一。
发明内容
有鉴于此,有必要提供一种交集数据的生成方法和基于交集数据的联邦模型训练方法、***、计算机设备及计算机可读存储介质,以解决当前联邦学习容易造成用户信息的泄露等技术问题。
为实现上述目的,本发明实施例提供了一种交集数据的生成方法,所述方法步骤包括:
接收数据请求终端发送的ID交集请求,所述ID交集请求携带有至少一个用户ID信息;
响应于所述ID交集请求,并根据所述用户ID信息返回第一加密数据,以使所述数据请求终端根据所述第一加密数据返回第二加密数据和第三加密数据;
接收所述第二加密数据和所述第三加密数据;
将所述第一加密数据、所述第二加密数据和所述第三加密数据输入到预先配置好的交集模型中进行交集处理,以得到交集数据集和非交集数据集;
对所述非交集数据集中的每个非交集数据进行特征标签化处理,以生成多个虚拟特征;及
将所述交集数据集和所述多个虚拟特征发送到数据请求终端进行联邦训练。
示例性的,所述根据所述用户ID信息返回第一加密数据,包括;
根据所述用户ID信息获取与所述用户ID信息对应的目标用户信息;及
对所述目标用户信息进行加密处理,以得到第一加密数据。
示例性的,所述用户ID信息包括第一ID信息;
所述根据所述用户ID信息获取与所述用户ID信息对应的目标用户信息,包括;
根据预设的格式转换规则对所述第一ID信息进行格式转换,以得到所述第一ID信息对应的第二ID信息;及
根据所述第二ID信息获取与所述用户ID信息对应的目标用户信息。
示例性的,还包括配置所述格式转换规则的步骤:
预先获取所述数据请求终端提供的多个第一ID信息,其中,每个用户ID信息携带有该用户的用户身份信息;
根据所述用户身份信息确定所述每个第一ID信息对应的第二ID信息;
根据每个第一ID信息和该第一ID信息对应的第二ID信息,配置所述格式转换规则。
示例性的,还包括:将所述多个时间序列数据上传到区块链中。
为实现上述目的,本发明实施例还提供了一种基于交集数据的联邦模型训练方法,用于数据请求终端,所述方法包括:
向数据提供终端发送ID交集请求,以使所述数据提供终端根据所述ID交集请求携带的用户ID信息返回第一加密数据;
接收所述第一加密数据;
对所述第一加密数据进行加密处理,以得到第二加密数据;
获取与所述用户ID信息对应的本地用户信息,并对所述本地用户信息进行加密处理,以得到第三加密数据;
将所述第二加密数据和所述第三加密数据发送到所述数据提供终端,以使所述数据提供终端返回对应的交集数据集和多个虚拟特征;及
将所述交集数据集和所述多个虚拟特征作为联邦训练样本,对预先配置的预训练联邦模型中进行训练,以得到目标联邦模型。
示例性的,还包括:将所述交集数据集和多个虚拟特征上传到区块链中。
为实现上述目的,本发明实施例还提供了一种交集数据的生成***,包括:
接收请求模块,用于接收数据请求终端发送的ID交集请求,所述ID交集请求携带有至少一个用户ID信息;
响应请求模块,用于响应于所述ID交集请求,并根据所述用户ID信息返回第一加密数据,以使所述数据请求终端根据所述第一加密数据返回第二加密数据和第三加密数据;
接收数据模块,用于接收所述第二加密数据和所述第三加密数据;
交集处理模块,用于将所述第一加密数据、所述第二加密数据和所述第三加密数据输入到预先配置好的交集模型中进行交集处理,以得到交集数据集和非交集数据集;
标签处理模块,用于对所述非交集数据集中的每个非交集数据进行特征标签化处理,以生成多个虚拟特征;及
发送数据模块,用于将所述交集数据集和所述多个虚拟特征发送到数据请求终端。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上述的交集数据的生成方法或基于交集数据的联邦模型训练方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上述的交集数据的生成方法或基于交集数据的联邦模型训练方法的步骤。
本发明实施例提供的交集数据的生成方法和基于交集数据的联邦模型训练方法、***、计算机设备及计算机可读存储介质,通过对用户信息的非交集数据进行特征标签化处理,解决了联邦学习容易造成用户信息的泄露,提高了用户的数据安全性。
附图说明
图1为本发明实施例一中交集数据的生成方法的流程示意图。
图2为本发明实施例二中基于交集数据的联邦模型训练方法的流程示意图。
图3为本发明交集数据的生成***实施例三的程序模块示意图。
图4为本发明基于交集数据的联邦模型训练***实施例四的程序模块示意图。
图5为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例一
参阅图1,示出了本发明实施例之交集数据的生成方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以数据提供终端为执行主体进行示例性描述,所述数据提供终端为数据提供端,可以对数据进行加密操作。具体如下。
步骤S100,接收数据请求终端发送的ID交集请求,所述ID交集请求携带有至少一个用户ID信息。
所述数据提供终端可以接收所述数据请求终端发送的ID交集请求,其中,所述ID交集请求携带有至少一个用户ID信息。
所述数据请求终端为服务请求的发起方拥有向数据提供终端发送请求的功能。所述数据提供终端可以是另一独立完全个体,拥有自身的计算能力。
数据请求终端和数据提供终端可以互相通信。请求的表达形式一般为发送数据信息,接收数据信息,传递状态命令等等。所述数据提供终端和所述数据请求终端可以是计算机、计算集群、平板个人计算机(tablet personal computer)、膝上型计算机(laptopcomputer)等具有数据传输功能的设备。
步骤S102,响应于所述ID交集请求,并根据所述用户ID信息返回第一加密数据,以使所述数据请求终端根据所述第一加密数据返回第二加密数据和第三加密数据。
所述数据提供终端在接收到所述ID交集请求之后,可以生成对应第一加密算法所需要的密钥,以通过所述第一加密算法的密钥对与所述用户ID信息对应的数据进行加密,以得到所述第一加密数据,并将所述第一加密数据发送到所述数据请求终端。以使所述数据请求终端根据第二加密算法对所述第一加密数据进行加密处理,以得到第二加密数据。并获取与所述用户ID信息对应的本地用户信息,并通过第二加密算法对所述本地用户信息进行加密处理,以得到第三加密数据。
在示例性的实施例中,所述步骤S102可以进一步的包括步骤S102a~S102b,其中:步骤S102a,根据所述用户ID信息获取与所述用户ID信息对应的目标用户信息;及步骤S102b,对所述目标用户信息进行加密处理,以得到第一加密数据。
所述目标用户信息为目标用户在所述数据提供终端中的用户信息。所述数据提供终端可以根据所述用户ID信息从所述数据提供终端中获取与所述用户ID信息对应的目标用户信息,所述目标用户信息为所述用户ID信息对应的用户在所述数据提供终端的信息。需要说明的是,同一个用户可以分别在所述数据提供终端关联的应用和所述数据请求终端关联的应用上注册账号。由于是同一个用户的信息,所以,所述数据提供终端可以根据所述用户ID信息,获取与所述用户ID信息对应的目标用户在所述数据提供终端上的所述目标用户信息。
不难理解,不同用户在不同应用中的信息会存在差异,为了保证所述目标用户在信息安全,所述数据提供终端可以在得到所述目标用户信息后,可以对所述目标用户信息进行加密处理,以得到第一加密数据。
在示例性的实施例中,所述用户ID信息包括第一ID信息;所述步骤S102a可以进一步的包括步骤S102a1~S102a2,其中:步骤S102a1,根据预设的格式转换规则对所述第一ID信息进行格式转换,以得到所述第一ID信息对应的第二ID信息;及步骤S102a2,根据所述第二ID信息获取与所述用户ID信息对应的目标用户信息。
在示例性的实施例中,目标用户可以在所述数据提供终端进行信息注册以得到第一ID信息,还可以在所述数据请求终端进行信息注册以得到第二ID信息。例如,所述第一ID信息可以是“X123”,所述第二ID信息可以是“XX123”。在所述数据提供终端得到所述用户ID信息后,可以根据所述用户ID信息携带的第一ID信息和所述格式转换规则生成与所述第一ID信息对应得到第二ID信息,然后根据所述第二ID信息从与所述数据提供终相关联的数据库中获取与所述用户ID信息对应的目标用户信息。
步骤S104,接收所述第二加密数据和所述第三加密数据。
所述数据请求终端在接收到所述数据提供终端提供的所述第一加密数据后可以对所述第一加密数据进行加密处理,以得到第二加密数据。并获取与所述用户ID信息对应的本地用户信息,并对所述本地用户信息进行加密处理,以得到第三加密数据。其中,所述本地用户信息为目标用户在所述数据请求终端的用户信息。在一些实施例中,所述数据请求终端可以通过第二加密算法对所述第一加密数据进行加密处理,以得到第二加密数据。并通过第二加密算法对所述本地用户信息进行加密处理,以得到第三加密数据。
步骤S106,将所述第一加密数据、所述第二加密数据和所述第三加密数据输入到预先配置好的交集模型中进行交集处理,以得到交集数据集和非交集数据集。
在一些实施例中,所述交集模型可以对所述第二加密数据进行解密以得到解密结果,并判断所述解密结果与所述第一加密数据是否相同,如果相同则对所述第一加密数据和所述第三加密数据进行交集处理,以得到所述第一加密数据和所述第三加密数据的所述交集数据集和所述非交集数据集。其中,所述交集模型是一种用于计算两组数据的交集的模型,例如,所述第一加密数据为[1、5、7、6、8、9],所述第三数据为为[1、2、7、8],那么交集数据集为[1、7、8],非交集数据集为[2、5、6、9]。
步骤S108,对所述非交集数据集中的每个非交集数据进行特征标签化处理,以生成多个虚拟特征。
为了保证用户在不同应用中的数据安全,所述数据提供终端可以对所述非交集数据集中的每个非交集数据进行特征标签化处理,以生成多个虚拟特征。例如,将所述非交集数据集[2、5、6、9],转换为多个虚拟特征:null、null、tag、tag。
步骤S110,将所述交集数据集和所述多个虚拟特征发送到数据请求终端进行联邦训练。
在所述数据提供终端得到所述交集数据集和所述多个虚拟特征后,可以将所述交集数据集和所述多个虚拟特征发送到所述数据请求终端,以使所述数据请求终端根据所述交集数据集和所述多个虚拟特征对所述联邦模型进行训练。
在示例性的实施例中,所述交集数据的生成方法还可以包括配置所述格式转换规则的步骤S112a~S112c,其中:步骤S112a,预先获取所述数据请求终端提供的多个第一ID信息,其中,每个用户ID信息携带有该用户的用户身份信息;步骤S112b,根据所述用户身份信息确定所述每个第一ID信息对应的第二ID信息;及步骤S112c,根据每个第一ID信息和该第一ID信息对应的第二ID信息,配置所述格式转换规则。
在示例性的实施例中,每个用户可以在不同的应用中注册账号以得到对应的账号信息。例如,目标用户可以在所述数据提供终端进行信息注册以得到第一ID信息,还可以在所述数据请求终端进行信息注册以得到第二ID信息。其中,所述第一ID信息可以是“X123”,所述第二ID信息可以是“XX123”。由于所述第一ID信息和所述第二ID信息对应的是同一个用户(目标用户),所以,在所述数据提供终端和所述数据请求终端均有所述目标用户真实身份信息,即,所述第一ID信息可以根据所述目标用户真实身份信息确定对应的所述第二ID信息,并根据所述第一ID信息和所述第二ID信息,配置所述格式转换规则。例如,所述第一ID信息可以为“X123”,转换为所述第二ID信息可以为“XX123”的转换规则可以是,在“X123”前面增加一个“X”,以得到“XX123”。
在示例性的实施例中,所述交集数据的生成方法还可以包括:将所述交集数据集和多个虚拟特征上传到区块链中。
示例性的,将所述交集数据集和所述多个虚拟特征上传至区块链可保证其安全性和公正透明性。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
实施例二
参阅图2,示出了本发明实施例之基于交集数据的联邦模型训练方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以数据请求终端为执行主体进行示例性描述,该数据请求终端可以向数据提供终端发送请求信息,以使所述数据提供终端返回对应的数据。具体如下。
步骤S200,向数据提供终端发送ID交集请求,以使所述数据提供终端根据所述ID交集请求携带的用户ID信息返回第一加密数据。
所述ID交集请求用于指示所述数据提供终端根据所述ID交集请求返回对应的加密数据。
所述数据请求终端可以向数据提供终端发送ID交集请求。其中,所述ID交集请求中携带有目标用户的用户ID信息。
所述数据提供终端可以根据所述用户ID信息从所述数据提供终端中获取与所述用户ID信息对应的目标用户信息,所述目标用户信息为所述用户ID信息对应的用户在所述数据提供终端的信息。并通过第一加密算法对所述目标用户信息进行加密操作,以得到第一加密数据。其中,所述数据提供终端在接收到所述ID交集请求之后,可以生成对应第一加密算法所需要的密钥。在所述数据提供终端得到所述第一加密数据后,可以将所述第一加密数据发送到所述数据请求终端。
所述数据请求终端为服务请求的发起方,拥有向数据提供终端发送请求(请求配合支持数据支持)的功能,并可以根据数据提供终端返回的数据进行联邦模型的训练。所述数据提供终端可以是另一独立完全个体,拥有自身的计算能力,可以响应所述数据请求终端发送的ID交集请求,并配合数据请求终端完成模型的联邦训练。
步骤S202,接收所述第一加密数据。
步骤S204,对所述第一加密数据进行加密处理,以得到第二加密数据。
步骤S206,获取与所述用户ID信息对应的本地用户信息,并对所述本地用户信息进行加密处理,以得到第三加密数据。
所述数据请求终端在接收到所述数据提供终端提供的所述第一加密数据后可以对所述第一加密数据进行加密处理,以得到第二加密数据。并获取与所述用户ID信息对应的本地用户信息,并对所述本地用户信息进行加密处理,以得到第三加密数据。其中,所述本地用户信息为目标用户在所述数据请求终端的用户信息。在一些实施例中,所述数据请求终端可以通过第二加密算法对所述第一加密数据进行加密处理,以得到第二加密数据。并通过第二加密算法对所述本地用户信息进行加密处理,以得到第三加密数据。
步骤S208,将所述第二加密数据和所述第三加密数据发送到所述数据提供终端,以使所述数据提供终端返回对应的交集数据集和多个虚拟特征。
在所述数据请求终端得到所述第二加密数据和所述第三加密数据后,可以将所述第二加密数据和所述第三加密数据发送到所述数据提供终端。所述数据提供终端在再接收到所述第二加密数据和所述第三加密数据后,可以将所述第一加密数据、所述第二加密数据和所述第三加密数据输入到预先配置好的交集模型中进行交集处理,以得到交集数据集和非交集数据集。在一些实施例中,所述交集模型可以对所述第二加密数据进行解密以得到解密结果,并判断所述解密结果与所述第一加密数据是否相同,如果相同则对所述第一加密数据和所述第三加密数据进行交集处理,以得到所述第一加密数据和所述第三加密数据的所述交集数据集和所述非交集数据集。其中,所述交集模型是一种用于计算两组数据的交集的模型,例如,所述第一加密数据为[1、5、7、6、8、9],所述第三数据为为[1、2、7、8],那么交集数据集为[1、7、8],非交集数据集为[2、5、6、9]。为了保证用户在不同应用中的数据安全,所述数据提供终端可以对所述非交集数据集中的每个非交集数据进行特征标签化处理,以生成多个虚拟特征。例如,将所述非交集数据集[2、5、6、9],转换为多个虚拟特征:null、null、tag、tag。在所述数据提供终端得到所述交集数据集和所述多个虚拟特征后,可以将所述交集数据集和所述多个虚拟特征发送到所述数据请求终端。
步骤S210,将所述交集数据集和所述多个虚拟特征作为联邦训练样本,对预先配置的预训练联邦模型中进行训练,以得到目标联邦模型。
在示例性的实施例中,所述数据请求终端可以预先获取待训练的联邦模型,并通过本地用户数据对所述待训练的联邦模型进行预训练,其中,所述待训练的联邦模型可以是LR,XGB,DNN等。在得到所述数据提供终端的所述交集数据集和所述多个虚拟特征后,可以将所述交集数据集和所述多个虚拟特征作为所述预训练联邦模型的联邦训练样本,并通过所述联邦训练样本对所述预训练联邦模型中进行训练,以得到目标联邦模型。本实施例既解决了交集部分样本无信息缺失的完成了任务,又对为交叉部分的数据进行了更好的模型训练,最终得到了一个训练好的目标联邦模型。
在本实施中,所述数据提供终端可以保证真实数据安全不出本地的情况下,配合所述述数据请求终端完成模型训练。所述数据提供终端在配合所述述数据请求终端时,可以进行中间数据的传递。所述中间数据包括明文(不加密的密钥等),也包括加密(通常为同态加密)后的模型和数据信息。
在示例性的实施例中,所述基于交集数据的联邦模型训练方法还可以包括:将所述交集数据集和多个虚拟特征上传到区块链中。
示例性的,将所述交集数据集和所述多个虚拟特征上传至区块链可保证其安全性和公正透明性。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
实施例三
图3为本发明交集数据的生成***实施例三的程序模块示意图。交集数据的生成***30可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述交集数据的生成方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述交集数据的生成***30在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
接收请求模块300,用于接收数据请求终端发送的ID交集请求,所述ID交集请求携带有至少一个用户ID信息。
响应请求模块302,用于响应于所述ID交集请求,并根据所述用户ID信息返回第一加密数据,以使所述数据请求终端根据所述第一加密数据返回第二加密数据和第三加密数据。
示例性的,所述响应请求模块302,还用于:根据所述用户ID信息获取与所述用户ID信息对应的目标用户信息;及对所述目标用户信息进行加密处理,以得到第一加密数据。
示例性的,所述响应请求模块302,还用于:根据预设的格式转换规则对所述第一ID信息进行格式转换,以得到所述第一ID信息对应的第二ID信息;及根据所述第二ID信息获取与所述用户ID信息对应的目标用户信息。
接收数据模块304,用于接收所述第二加密数据和所述第三加密数据。
交集处理模块306,用于将所述第一加密数据、所述第二加密数据和所述第三加密数据输入到预先配置好的交集模型中进行交集处理,以得到交集数据集和非交集数据集。
标签处理模块308,用于对所述非交集数据集中的每个非交集数据进行特征标签化处理,以生成多个虚拟特征。
发送数据模块310,用于将所述交集数据集和所述多个虚拟特征发送到数据请求终端。
示例性的,所述交集数据的生成***还可以包括配置模块,所述配置模块,用于:预先获取所述数据请求终端提供的多个第一ID信息,其中,每个用户ID信息携带有该用户的用户身份信息;根据所述用户身份信息确定所述每个第一ID信息对应的第二ID信息;及根据每个第一ID信息和该第一ID信息对应的第二ID信息,配置所述格式转换规则。
示例性的,所述交集数据的生成***还可以包括上传模块,所述上传模块,用于:将所述交集数据集和多个虚拟特征上传到区块链中。
实施例四
图4为本发明基于交集数据的联邦模型训练***实施例四的程序模块示意图。基于交集数据的联邦模型训练***40可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于交集数据的联邦模型训练方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于交集数据的联邦模型训练***40在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
发送请求模块400,用于向数据提供终端发送ID交集请求,以使所述数据提供终端根据所述ID交集请求携带的用户ID信息返回第一加密数据。
接收响应模块402,用于接收所述第一加密数据。
数据加密模块404,用于对所述第一加密数据进行加密处理,以得到第二加密数据。
获取信息模块406,用于获取与所述用户ID信息对应的本地用户信息,并对所述本地用户信息进行加密处理,以得到第三加密数据。
接收数据模块408,用于将所述第二加密数据和所述第三加密数据发送到所述数据提供终端,以使所述数据提供终端返回对应的交集数据集和多个虚拟特征。
模型训练模块410,用于将所述交集数据集和所述多个虚拟特征作为联邦训练样本,对预先配置的预训练联邦模型中进行训练,以得到目标联邦模型。
示例性的,所述交集数据的生成***还可以包括上传模块,所述上传模块,用于:将所述交集数据集和多个虚拟特征上传到区块链中。
实施例五
参阅图5,是本发明实施例五之计算机设备的硬件架构示意图。本实施例中,所述计算机设备3是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备3可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备3至少包括,但不限于,可通过***总线相互通信连接存储器31、处理器32、网络接口33、以及交集数据的生成***30或基于交集数据的联邦模型训练***40。
本实施例中,存储器31至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器31可以是计算机设备3的内部存储单元,例如该计算机设备3的硬盘或内存。在另一些实施例中,存储器31也可以是计算机设备3的外部存储设备,例如该计算机设备3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器31还可以既包括计算机设备3的内部存储单元也包括其外部存储设备。本实施例中,存储器31通常用于存储安装于计算机设备3的操作***和各类应用软件,例如实施例三的交集数据的生成***30或实施例四的基于交集数据的联邦模型训练***40的程序代码等。此外,存储器31还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器32在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器32通常用于控制计算机设备3的总体操作。本实施例中,处理器32用于运行存储器31中存储的程序代码或者处理数据,例如运行交集数据的生成***30或基于交集数据的联邦模型训练***40,以实现实施例一的交集数据的生成或实施例二的基于交集数据的联邦模型训练方法。
所述网络接口33可包括无线网络接口或有线网络接口,该网络接口33通常用于在所述计算机设备3与其他电子装置之间建立通信连接。例如,所述网络接口33用于通过网络将所述计算机设备3与外部终端相连,在所述计算机设备3与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图5仅示出了具有部件30-33的计算机设备3,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器31中的交集数据的生成***30还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器31中,并由一个或多个处理器(本实施例为处理器32)所执行,以完成本发明。
例如,图3示出了本发明实施例三之所述实现交集数据的生成***30的程序模块示意图,该实施例中,所述交集数据的生成***30可以被划分为接收请求模块300、响应请求模块302、接收数据模块304、交集处理模块306、标签处理模块308和发送数据模块310。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述交集数据的生成***30在所述计算机设备3中的执行过程。所述程序模块300-310的具体功能在实施例三中已有详细描述,在此不再赘述。
实施例六
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于交集数据的生成***30或基于交集数据的联邦模型训练***40,被处理器执行时可以实现实施例一的交集数据的生成方法或实施例二的基于交集数据的联邦模型训练方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种交集数据的生成方法,其特征在于,包括:
接收数据请求终端发送的ID交集请求,所述ID交集请求携带有至少一个用户ID信息;
响应于所述ID交集请求,并根据所述用户ID信息返回第一加密数据,以使所述数据请求终端根据所述第一加密数据返回第二加密数据和第三加密数据;
接收所述第二加密数据和所述第三加密数据;
将所述第一加密数据、所述第二加密数据和所述第三加密数据输入到预先配置好的交集模型中进行交集处理,以得到交集数据集和非交集数据集;
对所述非交集数据集中的每个非交集数据进行特征标签化处理,以生成多个虚拟特征;及
将所述交集数据集和所述多个虚拟特征发送到数据请求终端进行联邦训练。
2.如权利要求1所述的交集数据的生成方法,其特征在于,所述根据所述用户ID信息返回第一加密数据,包括;
根据所述用户ID信息获取与所述用户ID信息对应的目标用户信息;及
对所述目标用户信息进行加密处理,以得到第一加密数据。
3.如权利要求2所述的交集数据的生成方法,其特征在于,所述用户ID信息包括第一ID信息;
所述根据所述用户ID信息获取与所述用户ID信息对应的目标用户信息,包括;
根据预设的格式转换规则对所述第一ID信息进行格式转换,以得到所述第一ID信息对应的第二ID信息;及
根据所述第二ID信息获取与所述用户ID信息对应的目标用户信息。
4.如权利要求3所述的交集数据的生成方法,其特征在于,还包括配置所述格式转换规则的步骤:
预先获取所述数据请求终端提供的多个第一ID信息,其中,每个用户ID信息携带有该用户的用户身份信息;
根据所述用户身份信息确定所述每个第一ID信息对应的第二ID信息;
根据每个第一ID信息和该第一ID信息对应的第二ID信息,配置所述格式转换规则。
5.如权利要求1所述的交集数据的生成方法,其特征在于,还包括:将所述多个时间序列数据上传到区块链中。
6.一种基于交集数据的联邦模型训练方法,其特征在于,用于数据请求终端,所述方法包括:
向数据提供终端发送ID交集请求,以使所述数据提供终端根据所述ID交集请求携带的用户ID信息返回第一加密数据;
接收所述第一加密数据;
对所述第一加密数据进行加密处理,以得到第二加密数据;
获取与所述用户ID信息对应的本地用户信息,并对所述本地用户信息进行加密处理,以得到第三加密数据;
将所述第二加密数据和所述第三加密数据发送到所述数据提供终端,以使所述数据提供终端返回对应的交集数据集和多个虚拟特征;及
将所述交集数据集和所述多个虚拟特征作为联邦训练样本,对预先配置的预训练联邦模型中进行训练,以得到目标联邦模型。
7.如权利要求6所述的交集数据的生成方法,其特征在于,还包括:
将所述交集数据集和多个虚拟特征上传到区块链中。
8.一种交集数据的生成***,其特征在于,包括:
接收请求模块,用于接收数据请求终端发送的ID交集请求,所述ID交集请求携带有至少一个用户ID信息;
响应请求模块,用于响应于所述ID交集请求,并根据所述用户ID信息返回第一加密数据,以使所述数据请求终端根据所述第一加密数据返回第二加密数据和第三加密数据;
接收数据模块,用于接收所述第二加密数据和所述第三加密数据;
交集处理模块,用于将所述第一加密数据、所述第二加密数据和所述第三加密数据输入到预先配置好的交集模型中进行交集处理,以得到交集数据集和非交集数据集;
标签处理模块,用于对所述非交集数据集中的每个非交集数据进行特征标签化处理,以生成多个虚拟特征;及
发送数据模块,用于将所述交集数据集和所述多个虚拟特征发送到数据请求终端。
9.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于交集数据的联邦模型训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至7中任一项所述的基于交集数据的联邦模型训练方法的步骤。
CN202010786660.2A 2020-08-07 2020-08-07 交集数据的生成方法和基于交集数据的联邦模型训练方法 Active CN111914277B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010786660.2A CN111914277B (zh) 2020-08-07 2020-08-07 交集数据的生成方法和基于交集数据的联邦模型训练方法
PCT/CN2020/135269 WO2021139476A1 (zh) 2020-08-07 2020-12-10 交集数据的生成方法和基于交集数据的联邦模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010786660.2A CN111914277B (zh) 2020-08-07 2020-08-07 交集数据的生成方法和基于交集数据的联邦模型训练方法

Publications (2)

Publication Number Publication Date
CN111914277A true CN111914277A (zh) 2020-11-10
CN111914277B CN111914277B (zh) 2023-09-01

Family

ID=73287637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010786660.2A Active CN111914277B (zh) 2020-08-07 2020-08-07 交集数据的生成方法和基于交集数据的联邦模型训练方法

Country Status (2)

Country Link
CN (1) CN111914277B (zh)
WO (1) WO2021139476A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032840A (zh) * 2021-05-26 2021-06-25 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及计算机可读存储介质
WO2021139476A1 (zh) * 2020-08-07 2021-07-15 平安科技(深圳)有限公司 交集数据的生成方法和基于交集数据的联邦模型训练方法
CN116582341A (zh) * 2023-05-30 2023-08-11 连连银通电子支付有限公司 异常检测方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807415B (zh) * 2021-08-30 2024-06-18 中国再保险(集团)股份有限公司 联邦特征选择方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492420A (zh) * 2018-12-28 2019-03-19 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、***及介质
WO2020029590A1 (zh) * 2018-08-10 2020-02-13 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN110955907A (zh) * 2019-12-13 2020-04-03 支付宝(杭州)信息技术有限公司 一种基于联邦学习的模型训练方法
CN111259443A (zh) * 2020-01-16 2020-06-09 百融云创科技股份有限公司 一种基于psi技术保护联邦学习预测阶段隐私的方法
CN111402095A (zh) * 2020-03-23 2020-07-10 温州医科大学 一种基于同态加密联邦学习来检测学生行为与心理的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399741A (zh) * 2019-07-29 2019-11-01 深圳前海微众银行股份有限公司 数据对齐方法、设备及计算机可读存储介质
CN110443067B (zh) * 2019-07-30 2021-03-16 卓尔智联(武汉)研究院有限公司 基于隐私保护的联邦建模装置、方法及可读存储介质
CN110796267A (zh) * 2019-11-12 2020-02-14 支付宝(杭州)信息技术有限公司 数据共享的机器学习方法和机器学习装置
CN110942154B (zh) * 2019-11-22 2021-07-06 深圳前海微众银行股份有限公司 基于联邦学习的数据处理方法、装置、设备及存储介质
CN111177762B (zh) * 2019-12-30 2022-11-08 北京同邦卓益科技有限公司 一种数据处理方法、装置、服务器及联邦学习***
CN111914277B (zh) * 2020-08-07 2023-09-01 平安科技(深圳)有限公司 交集数据的生成方法和基于交集数据的联邦模型训练方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020029590A1 (zh) * 2018-08-10 2020-02-13 深圳前海微众银行股份有限公司 基于联邦训练的样本预测方法、装置及存储介质
CN109492420A (zh) * 2018-12-28 2019-03-19 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、终端、***及介质
CN110955907A (zh) * 2019-12-13 2020-04-03 支付宝(杭州)信息技术有限公司 一种基于联邦学习的模型训练方法
CN111259443A (zh) * 2020-01-16 2020-06-09 百融云创科技股份有限公司 一种基于psi技术保护联邦学习预测阶段隐私的方法
CN111402095A (zh) * 2020-03-23 2020-07-10 温州医科大学 一种基于同态加密联邦学习来检测学生行为与心理的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021139476A1 (zh) * 2020-08-07 2021-07-15 平安科技(深圳)有限公司 交集数据的生成方法和基于交集数据的联邦模型训练方法
CN113032840A (zh) * 2021-05-26 2021-06-25 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及计算机可读存储介质
CN113032840B (zh) * 2021-05-26 2021-07-30 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及计算机可读存储介质
WO2022247576A1 (zh) * 2021-05-26 2022-12-01 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及计算机可读存储介质
CN116582341A (zh) * 2023-05-30 2023-08-11 连连银通电子支付有限公司 异常检测方法、装置、设备及存储介质
CN116582341B (zh) * 2023-05-30 2024-06-04 连连银通电子支付有限公司 异常检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2021139476A1 (zh) 2021-07-15
CN111914277B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN111914277B (zh) 交集数据的生成方法和基于交集数据的联邦模型训练方法
CN107948152B (zh) 信息存储方法、获取方法、装置及设备
CN104081713B (zh) 云计算环境中的服务器和客户机的远程信任认证和地理位置
CN109474662B (zh) 产品数据发布方法、装置、计算机设备和存储介质
CN103607284B (zh) 身份认证方法及设备、服务器
CN107248984B (zh) 数据交换***、方法和装置
US11546348B2 (en) Data service system
CN109510840B (zh) 非结构化数据的共享方法、装置、计算机设备和存储介质
CN111880919B (zh) 数据调度方法、***和计算机设备
CN112367164A (zh) 业务请求处理方法、装置、计算机设备和存储介质
CN111563268B (zh) 基于矩阵运算的数据加密方法、装置及存储介质
CN111586671B (zh) 嵌入式用户识别卡配置方法、装置、通信设备和存储介质
CN110635900B (zh) 一种适用于物联网***的密钥管理方法及***
CN111291420A (zh) 一种基于区块链的分布式离链数据存储方法
CN111628863A (zh) 一种数据签名的方法、装置、电子设备及存储介质
CN113434906A (zh) 数据查询方法、装置、计算机设备及存储介质
CN113038463A (zh) 一种通讯加密认证实验装置
CN114357472B (zh) 数据的打标签方法、***、电子设备和可读存储介质
CN110888716A (zh) 一种数据处理的方法、装置、存储介质和电子设备
CN113868713B (zh) 一种数据验证方法、装置、电子设备及存储介质
CN113392062B (zh) 数据存储方法、装置、电子设备和计算机可读存储介质
CN115001869A (zh) 一种加密传输方法及***
CN111984631A (zh) 生产数据迁移方法、装置、计算机设备及存储介质
CN113094735A (zh) 隐私模型训练的方法
CN112799744A (zh) 工业app的调用方法、装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant