CN110443416A - 基于共享数据的联邦建模装置、方法及可读存储介质 - Google Patents
基于共享数据的联邦建模装置、方法及可读存储介质 Download PDFInfo
- Publication number
- CN110443416A CN110443416A CN201910697248.0A CN201910697248A CN110443416A CN 110443416 A CN110443416 A CN 110443416A CN 201910697248 A CN201910697248 A CN 201910697248A CN 110443416 A CN110443416 A CN 110443416A
- Authority
- CN
- China
- Prior art keywords
- data providing
- data
- encryption
- field
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0816—Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
- H04L9/0819—Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s)
- H04L9/0825—Key transport or distribution, i.e. key establishment techniques where one party creates or otherwise obtains a secret value, and securely transfers it to the other(s) using asymmetric-key encryption or public key infrastructure [PKI], e.g. key signature or public key certificates
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/08—Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
- H04L9/0861—Generation of secret information including derivation or calculation of cryptographic keys or passwords
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Signal Processing (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于共享数据的联邦建模方法,包括:接收多个数据提供方上传的业务数据;根据接收到的业务数据确定多个数据提供方A1~An所共有的字段,并根据共有的字段形成字段集;判断字段集中每一字段对应的值是否位于预设离群值判定区间内,以将不在区间内的字段从字段集中剔除;根据预设的筛选规则从经过剔除处理后的字段集中筛选出多个关键字段;对多个关键字段进行字段融合,以基于融合后的关键字段的数据构建训练样本;及控制每一所述数据提供方A1~An依据训练样本执行联合建模操作。本发明还提供一种基于共享数据的联邦建模装置及计算机可读存储介质。本发明可实现在各数据提供方的业务数据没有泄露的情况下进行联合建模。
Description
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种基于共享数据的联邦建模装置、方法及计算机可读存储介质。
背景技术
利用训练完成的机器学习模型对于未知参数或结果进行预测是人工智能领域很常用的技术手段。单个节点往往存在样本少,导致训练后的模型预测准确率低的问题,因此,多个节点联合建模构建检测模型是解决样本匮乏的重要手段。然而,对于一些对数据比较敏感的商业公司,公司经营相关数据本身是一种具有很大价值的资产,出于隐私保护和防止泄露等等需求,数据拥有方并不愿意直接将数据提供出来,导致消息的闭塞性。
发明内容
有鉴于此,有必要提供一种基于共享数据的联邦建模装置、方法及计算机可读存储介质,其可实现在充分保证数据安全的前提下实现基于共享数据的建模,一定程度上解决数据信息闭塞的问题。
本发明一实施方式提供一种基于共享数据的联邦建模方法,包括:接收多个数据提供方A1~An上传的业务数据;根据接收到的业务数据确定多个所述数据提供方A1~An所共有的字段,并根据所述共有的字段形成字段集;判断所述字段集中每一字段对应的值是否位于预设离群值判定区间内;若存在一个或多个字段对应的值不在所述预设离群值判定区间内,则将所述一个或多个字段从所述字段集中剔除;根据预设的筛选规则从经过剔除处理后的字段集中筛选出多个关键字段;对多个所述关键字段进行字段融合,以基于融合后的关键字段的数据构建训练样本;及向每一所述数据提供方A1~An发送联合建模指令,以控制每一所述数据提供方A1~An依据所述训练样本执行联合建模操作。
优选地,所述对多个所述关键字段进行字段融合的步骤包括:
根据多个所述关键字段的时间戳对属于指定日期区间的关键字段的字段取值进行求和。
优选地,所述控制每一所述数据提供方A1~An依据所述训练样本执行联合建模操作的步骤包括:
创建加密密钥对,并将所述加密密钥对的公钥分发给每一所述数据提供方A1~An,以对模型训练过程中每一所述数据提供方A1~An交互的数据进行加密;
将多个所述数据提供方A1~An-1各自计算得到的本地加密损失发送至所述数据提供方An,以通过所述数据提供方An汇总计算得到总加密损失;
接收所述数据提供方An计算得到的总加密损失;
在每一所述数据提供方A1~An中初始化一干扰项并基于所述干扰项计算得到加密干扰项;
接收每一所述数据提供方A1~An计算得到的加密梯度及所述加密干扰项;
对所述总加密损失、每一所述数据提供方A1~An的加密梯度及加密干扰项之和进行解密处理,以得到解密的总损失及解密的每一所述数据提供方A1~An的梯度与干扰项之和;
将解密的梯度与干扰项之和对应发送给每一所述数据提供方A1~An,以使得每一所述数据提供方A1~An计算得到解密梯度;
控制每一所述数据提供方A1~An根据计算得到的解密梯度更新各自的待训练模型的模型参数,以进行后续的模型训练直至总损失函数收敛。
优选地,所述方法还包括:基于所述训练样本对所述待训练模型进行训练,得到所述训练样本中各关键字段的权重值,其中所述权重值表征各关键字段对所述待训练模型的贡献度;及
将低于预设权重值的关键字段从所述训练样本中剔除。
优选地,所述待训练模型为业务预测模型,所述方法还包括:
将任意一数据提供方所共有的关键字段代入训练完成的业务预测模型,以得到该数据提供方的业务预测结果。
优选地,所述方法还包括:控制多个所述数据提供方A1~An-1根据各自所包含的共有的关键字段计算得到本地加密样本权重,并发送至所述数据提供方An,以通过所述数据提供方An汇总计算得到总加密样本权重;及控制所述数据提供方An将所述总加密样本权重分发给多个所述数据提供方A1~An-1,以使得每一所述数据提供方A1~An基于所述总加密样本权重计算得到所述加密梯度。
优选地,所述在每一所述数据提供方A1~An中初始化一干扰项的步骤包括:
获取每一所述数据提供方A1~An计算得到的加密梯度的数量级;及
在每一所述数据提供方A1~An中随机初始化与各自加密梯度具有相同数量级的干扰项。
优选地,所述在每一所述数据提供方A1~An中初始化一干扰项的步骤包括:
根据每一所述数据提供方A1~An计算得到的加密梯度各自确定一随机值范围;及
在每一所述数据提供方A1~An中随机初始化在各自随机值范围内的干扰项。
本发明一实施方式提供一种基于共享数据的联邦建模装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,所述处理器用于执行存储器中存储的计算机程序时实现上述基于共享数据的联邦建模方法的步骤。
本发明一实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现上述的基于共享数据的联邦建模方法的步骤。
与现有技术相比,上述基于共享数据的联邦建模装置、方法及计算机可读存储介质,其可实现在充分保证数据安全的前提下实现基于共享数据的联邦建模,一定程度上解决数据信息闭塞的问题,解决了大数据时代下,数据的隐私保护问题,实现即可以保护各自公司的数据隐私,又可以通过模型预测对方公司的大概的经营状况,为企业经营提供辅助决策。
附图说明
图1是本发明一实施方式的联邦建模***的架构示意图。
图2是本发明一实施方式的联邦建模装置的功能模块图。
图3是本发明一实施方式的联邦建模程序的功能模块图。
图4是本发明一实施方式的联邦建模方法的流程图。
主要元件符号说明
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
请参阅图1,为本发明基于共享数据的联邦建模***较佳实施例的示意图。
所述联邦建模***1包括多个数据提供方A1~An及协作节点C,其中n优选为大于1的正整数。多个所述数据提供方A1~An与所述协作节点C进行协作,实现联合建模。每一所述数据提供方A1~An均构建有一待训练模型。
以下以待训练模型为业务预测模型进行企业业务预测为例进行举例说明,但并不以此为限,在本发明的其他实施方式中,所述待训练模型可以根据实际需求进行确定。当多方联合建模完成时,每一所述数据提供方A1~An均形成有各自的业务预测模型,进而每一所述数据提供方A1~An可以通过训练好的业务预测模型预测对方公司的销售状况或者供货状况,为公司战略调整提供辅助决策。
在一实施方式中,每一所述数据提供方A1~An可以包括至少一供货商及至少一批发商。所述供货商可以是生产/销售商品的商家或企业,所述批发商可以是采购商品的商家或者企业。所述协作节点C可以是第三方可信任的数据平台,例如地方政府建立的数据平台。每一所述数据提供方A1~An可以将各自的数据上传至所述协作节点C。比如,数据提供方A1为供货商,数据提供方A1可以通过计算机/服务器将企业相关数据上传至所述协作节点C;数据提供方A2为批发商,数据提供方A2可以通过计算机/服务器将企业相关数据上传至所述协作节点C。所述企业相关数据可以包括各种类型商品的存货数据、进货数据、原材料采购数据、产能数据等。
请参阅图2,为本发明基于共享数据的联邦建模装置较佳实施例的示意图。所述联邦建模装置100可以包括存储器10、处理器20以及存储在所述存储器10中并可在所述处理器20上运行的联邦建模程序30。所述处理器20执行所述联邦建模程序30时实现联邦建模方法实施例中的步骤,例如图4所示的步骤S400~S412。或者,所述处理器20执行所述联邦建模程序30时实现图3中各模块的功能,例如模块101~111。
所述联邦建模程序30可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器10中,并由所述处理器20执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述联邦建模程序30在所述联邦建模装置100中的执行过程。例如,所述联邦建模程序30可以被分割成图3中的第一接收模块101、融合模块102、创建模块103、第一发送模块104、第二接收模块105、计算模块106、第三接收模块107、解密模块108、第二发送模块109、更新模块110及预测模块111。各模块具体功能参见下图3中各模块的功能。
本领域技术人员可以理解,所述示意图仅是联邦建模装置100的示例,并不构成对联邦建模装置100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述联邦建模装置100还可以包括网络接入设备、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器20也可以是任何常规的处理器等,所述处理器20可以利用各种接口和总线连接联邦建模装置100的各个部分。
所述存储器10可用于存储所述联邦建模程序30和/或模块,所述处理器20通过运行或执行存储在所述存储器10内的计算机程序和/或模块,以及调用存储在存储器10内的数据,实现所述联邦建模装置100的各种功能。所述存储器10可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在一实施方式中,所述联邦建模装置100可以集成在所述协作节点C中。所述联邦建模装置100也可以部分集成在每一所述数据提供方A1~An中,部分集成在所述协作节点C中。在本发明的其他实施方式中,所述协作节点C也可以是其中的某一个建模节点A1~An。
图3为本发明联邦建模程序较佳实施例的功能模块图。
参阅图3所示,联邦建模程序30可以包括第一接收模块101、融合模块102、创建模块103、第一发送模块104、第二接收模块105、计算模块106、第三接收模块107、解密模块108、第二发送模块109、更新模块110及预测模块111。在一实施方式中,上述模块可以为存储于所述存储器10中且可被所述处理器20调用执行的可程序化软件指令。可以理解的是,在其他实施方式中,上述模块也可为固化于所述处理器20中的程序指令或固件(firmware)。
所述第一接收模块101用于接收多个数据提供方A1~An上传的业务数据。
在一实施方式中,每一所述数据提供方A1~An均具有各自的本地数据库,所述本地数据库优选存储有各自企业经营相关联的数据,比如产品的生产、销售、采购数据等。所述数据提供方A1~An可以通过接入网络来实现上传业务数据至所述协作节点C,进而所述第一接收模块101可以接收到多个数据提供方A1~An上传的业务数据。
在一实施方式中,每一数据提供方A1~An可以根据实际建模需求来选定需要将本地数据库中的那些业务数据上传至所述协作节点C。
所述融合模块102用于根据接收到的业务数据确定每一所述数据提供方A1~An所共有的字段,并对所述共有的字段进行字段融合,以基于字段融合后的业务数据构建训练样本。
在一实施方式中,所述第一接收模块101接收到的业务数据包含有每一数据提供方A1~An共有的字段,也包含有不共有的字段。所述融合模块102可以先确认得到每一数据提供方A1~An所共有的业务数据,以便联合这些共有的业务数据进行建模。具体地,所述融合模块102可以对接收到的每一数据提供方A1~An的业务数据进行比对,以确定每一所述数据提供方A1~An所共有的字段,并根据所述共有的字段形成字段集。所述融合模块102还可以对对字段集中所共有的字段进行字段融合,进而可以将字段融合后的业务数据构建成训练样本。
在一实施方式中,为了提高模型训练效率,共有的字段中可能包含对模型训练没有太大作用或者无作用的字段,所述融合模块102优选从共有的字段中筛选出关键字段来进行融合并构建训练样本。上述关键字段具体可以包括业务数据中记录了对业务预测模型的训练贡献较大的关键信息的数据字段,即原始的业务数据中的一些对模型训练而言比较有价值的字段,在实际应用中,上述关键字段具体可以基于实际的建模需求来进行指定。例如,以训练一个用于对批发商/供应商的销售状况/供货状况的模型为例,假设原始的业务数据中包含记录了销售额、月产能、原材料采购字段等信息,由于该些字段对于批发商/供应商的业务预测而言价值较大,那么此时该字段可以被指定为关键字段。
可以理解的,所述关键字段可以是根据预设筛选规则从共有的字段中筛选得出,比如所述关键字段可以是包含有特定关键字的字段。所述融合模块102优选根据接收到的业务数据确定每一所述数据提供方A1~An所共有的关键字段,并对所述共有的关键字段进行字段融合,以基于关键字段融合后的业务数据构建训练样本。
在一实施方式中,对于共有的字段对应的值而言,可以设定一个离群值标准线,若该字段对应的值超过离群值标准线,可以将其定义为离群点,即该字段对应的值为异常值,不适合进行模型训练,需将其舍弃。具体地,联邦建模装置100可以预先建立一离群值判定区间,所述融合模块102可以判断多个所述数据提供方A1~An所共有的字段对应的值是否位于所述离群值判定区间内,若存在一个或多个字段对应的值不在所述离群值判定区间内,则所述融合模块102可以将所述一个或多个字段从所述字段集中剔除,可以提高模型训练的准确度。
在一实施方式中,字段融合具体可以是指对各数据提供方传输的业务数据中的字段中记录的信息进行整合的过程。所述融合模块102可以对所述共有的字段的字段取值进行求和,以实现字段融合。所述融合模块102还可以将共有的字段添加到指定的字段区间,以实现字段融合。比如,可以初始化创建一个融合后的业务数据的标准化的数据结构,并规划出若干个字段区间,然后将每一数据提供方A1~An共有的字段分别放置在指定的字段区间中。在本发明的其他实施方式中,所述融合模块102还可以根据所述共有的字段的时间戳对属于指定日期的字段的字段取值进行求和。所述融合模块102对属于指定日期的字段的字段取值进行求的方式可以是对时间在同一天、时间在同一周、或时间在同一月的字段的字段取值进行求和。
在一实施方式中,字段融合后的业务数据可以构建训练样本,并对所述业务预测模型进行训练。可以基于所述训练样本对所述业务预测模型进行训练的过程中,得到所述训练样本中各字段的权重值,其中所述权重值表征各字段对所述业务预测模型的贡献度。对于贡献程度相对较低的字段而言可以考虑舍弃,以提高模型训练效率。具体地,可以将低于预设权重值的字段从所述训练样本中剔除。所预设权重值可以根据实际模型训练需求进行设定。
所述创建模块103用于创建加密密钥对,并将所述加密密钥对的公钥分发给每一所述数据提供方A1~An,以对训练过程中节点交互的数据进行加密。
在一实施方式中,当构建训练样本后,所述联邦建模装置100可以向每一所述数据提供方A1~An发送联合建模指令,以控制每一所述数据提供方A1~An依据所述训练样本执行联合建模操作。
在一实施方式中,为了保证模型训练过程中数据的保密性,避免训练中的数据交互导致数据隐私泄露,所述创建模块103可以创建加密密钥对,并将所述加密密钥对的公钥分发给每一所述数据提供方A1~An。每一所述数据提供方A1~An可以利用所述公钥对训练过程中交互的数据进行加密。
所述第一发送模块104用于将多个所述数据提供方A1~An-1各自计算得到的本地加密损失发送至所述数据提供方An,以通过所述数据提供方An汇总计算得到总加密损失。
在一实施方式中,每一所述数据提供方A1~An均可以计算得到各自的本地加密损失及本地加密样本权重。每一所述数据提供方A1~An的本地加密样本权重可以分别通过以下公式计算得到:
其中,分别为每一所述数据提供方A1~An的本地加密样本权重,分别为每一所述数据提供方A1~An的模型参数,分别为每一所述数据提供方A1~An所包含的共有的字段的数据集。在本实施方式中,E(x)即表示参数x的加密值。
每一所述数据提供方A1~An的本地加密损失可以分别通过以下公式计算得到:
其中,分别为每一所述数据提供方A1~An的本地加密损失,λ为预设正则化参数,yi为所述数据提供方A1~An的销售状况或供货状况的数据集。
在一实施方式中,以数据提供方An负责接收其他数据提供方的本地加密损失为例,以在后续步骤中汇总计算得到总加密损失。可以理解的是,可以任意指定一个数据提供方来负责接收其他数据提供方的计算结果,并不限定数据提供方An,比如,可以指定数据提供方A1负责接收其他数据提供方的计算结果,此时,所述第一发送模块104可以将多个所述数据提供方A2~An计算得到的本地加密损失发送至所述数据提供方A1。
在一实施方式中,所述总加密样本权重可以通过以下公式计算得到:
其中E(di)为所述总加密样本权重。
所述总加密损失通过以下公式计算得到:
其中E(L)为所述总加密损失。
所述第二接收模块105用于接收所述数据提供方An计算得到的总加密损失。
在一实施方式中,当所述数据提供方An计算得到总加密损失后,可以将总加密损失发送给联邦建模装置100,进而所述第二接收模块105可以接收所述数据提供方An计算得到的总加密损失。
在一实施方式中,所述数据提供方An还可以将计算得到的总加密样本权重分发给其他数据提供方A1~An-1,以使得其他数据提供方A1~An-1可以单独计算加密梯度。
所述计算模块106用于在每一所述数据提供方A1~An中初始化一干扰项并基于所述干扰项计算得到加密干扰项。
在一实施方式中,所述计算模块106可以在每一所述数据提供方A1~An中均随机初始化一干扰项并基于所述干扰项计算得到加密干扰项。每一所述数据提供方A1~An的干扰项可以不相同。
举例而言,所述计算模块106可以在所述数据提供方A1中随机初始化一干扰项并基于所述干扰项计算得到加密干扰项在所述数据提供方A2中随机初始化一干扰项并基于所述干扰项计算得到加密干扰项在所述数据提供方An中随机初始化一干扰项并基于所述干扰项计算得到加密干扰项
在一实施方式中,通过在每一所述数据提供方A1~An中随机初始化一干扰项,可以使得建模协作方即使解密也无法得知数据提供方A1~An的模型参数,避免数据泄露。
在一实施方式中,所述计算模块106可以先获取每一所述数据提供方A1~An计算得到的加密梯度的数量级,然后在每一所述数据提供方A1~An中初始化与各自加密梯度具有相同数量级的随机干扰项,以提升干扰效果。举例而言,当所述计算模块106获取得到所述数据提供方A1计算得到的加密梯度的数量级为三位数时,所述计算模块106优选在所述数据提供方A1中随机一三位数的干扰项。当所述计算模块106获取得到所述数据提供方An计算得到的加密梯度的数量级为二位数时,所述计算模块106优选在所述数据提供方An中随机一两位数的干扰项。
在一实施方式中,所述计算模块106还可以根据每一所述数据提供方A1~An计算得到的加密梯度来确定一随机范围,然后根据该随机范围来在每一所述数据提供方A1~An中初始化一随机干扰项,该随机干扰项处于该随机范围之内。
所述第三接收模块107用于接收每一所述数据提供方A1~An计算得到的加密梯度及所述加密干扰项。
在一实施方式中,当数据提供方An将计算得到的总加密样本权重分发给多个其他数据提供方A1~An-1后,每一数据提供方A1~An均记录有总加密样本权重,进而每一所述数据提供方A1~An可以根据各自的模型参数、所包含的共有的字段的数据集及所述总加密样本权重分别计算得到各自的加密梯度。
在一实施方式中,每一所述数据提供方A1~An的加密梯度分别通过以下公式计算得到:
其中, 分别为每一所述数据提供方A1~An的加密梯度。每一所述数据提供方A1~An可以将计算得到的加密梯度及加密干扰项发送给联邦建模装置100,进而所述第三接收模块107可以接收到每一所述数据提供方A1~An计算得到的加密梯度及加密干扰项。
所述解密模块108用于对所述总加密损失、每一所述数据提供方A1~An的加密梯度及加密干扰项之和进行解密处理。
在一实施方式中,在一实施方式中,所述解密模块108可以利用先前创建的加密密钥对对所述总加密损失E(L)进行解密得到总损失L。当接收到每一所述数据提供方A1~An计算得到的加密梯度及加密干扰项后,所述解密模块108可以通过以下算法得到 所述解密模块108再对进行解密,可以得到梯度与干扰项之和:
在一实施方式中,对于数据提供方A1而言,当所述解密模块108接收到所述数据提供方A1计算得到的加密梯度及加密干扰项后,所述解密模块108可以计算得到 所述解密模块108再对进行解密,进而可以得到数据提供方A1的梯度与干扰项之和:对于数据提供方A2而言,当接收到所述数据提供方A2计算得到的加密梯度及加密干扰项后,所述解密模块108可以计算得到 所述解密模块108再对进行解密,进而可以得到数据提供方A2的梯度与干扰项之和:
所述第二发送模块109用于将解密后的梯度与干扰项之和对应发送给每一所述数据提供方A1~An,以使得每一所述数据提供方A1~An计算得到解密梯度。
在一实施方式中,所述第二发送模块109将解密后的梯度与干扰项之和发送给所述数据提供方A1,将解密后的梯度与干扰项之和发送给所述数据提供方A2,将解密后的梯度与干扰项之和发送给所述数据提供方An。由于干扰项均是在各自数据提供方A1~An中随机产生,进而每一所述数据提供方A1~An均可以知道自身干扰项的大小。当所述数据提供方A1接收到解密后的梯度与干扰项之和后,可以通过减法运算得到解密梯度同样地,当所述数据提供方An接收到解密后的梯度与干扰项之和后,可以通过减法运算得到解密梯度
所述更新模块110用于控制每一所述数据提供方A1~An根据计算得到的解密梯度更新各自业务预测模型的模型参数,以进行后续的模型训练直至总损失函数收敛。
在一实施方式中,所述业务预测模型可以基于神经网络模型或者多元逻辑回归模型训练得到。当所述业务预测模型基于神经网络模型训练得到时,所述更新模块110可以通过反向传播算法更新各自业务预测模型的模型参数。
在一实施方式中,在对每一所述数据提供方A1~An的业务预测模型进行训练前,每一所述数据提供方A1~An的业务预测模型的模型参数优选设定有一初始值。可以在一预设区间内随机初始化每一所述数据提供方A1~An的业务预测模型的模型参数。比如,所述预设区间可以是0~1之间。当每一所述数据提供方A1~An计算得到解密梯度后,所述更新模块110可以控制每一所述数据提供方A1~An根据计算得到的解密梯度更新各自的模型参数,从而进行后续的模型训练。后续的模型训练过程可以是:迭代上述训练方式直至总损失函数收敛,多方联合建模完成,各数据提供方A1~An均形成了自己的业务预测模型。
在一实施方式中,由于所述总加密损失通过以下公式计算得到: 所述总损失函数收敛可以是指函数 收敛。
在一实施方式中,每一所述数据提供方A1~An可以通过以下公式分别更新各自的模型参数:
其中,η为预设学习率,分别为每一所述数据提供方A1~An的解密梯度,分别为每一所述数据提供方A1~An更新后的模型参数。
所述预测模块111用于将任意一数据提供方所共有的字段代入训练完成的业务预测模型,以得到该数据提供方的业务预测结果。
在一实施方式中,当多方联合建模完成后,各数据提供方A1~An均形成了自身的业务预测模型,各个批发商/供货商可以通过训练好的业务预测模型预测对方公司的销售状况或者供货状况,并以此做出相应的公司战略调整。在实际的业务预测过程中,可以将任意一数据提供方A1~An所共有的字段数据代入训练完成的业务预测模型,以得到该数据提供方的业务预测结果。该业务预测结果可以是某批发商的销售预测数据或者某供货商的供货能力预测数据。
图4为本发明一实施方式中基于共享数据的联邦建模方法的流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S400,接收多个数据提供方A1~An上传的业务数据。
步骤S402,根据接收到的业务数据确定多个所述数据提供方A1~An所共有的字段,并根据所述共有的字段形成字段集。
步骤S404,判断所述字段集中每一字段对应的值是否位于预设离群值判定区间内。
步骤S406,若存在一个或多个字段对应的值不在所述预设离群值判定区间内,则将所述一个或多个字段从所述字段集中剔除。
步骤S408,根据预设的筛选规则从经过剔除处理后的字段集中筛选出多个关键字段。
步骤S410,对多个所述关键字段进行字段融合,以基于融合后的关键字段的数据构建训练样本。
步骤S412,向每一所述数据提供方A1~An发送联合建模指令,以控制每一所述数据提供方A1~An依据所述训练样本执行联合建模操作。
上述基于共享数据的联邦建模装置、方法及计算机可读存储介质,其可实现在充分保证数据安全的前提下实现基于共享数据的联邦建模,一定程度上解决数据信息闭塞的问题,解决了大数据时代下,数据的隐私保护问题,实现即可以保护各自公司的数据隐私,又可以通过模型预测对方公司的大概的经营状况,为企业经营提供辅助决策。
对本领域的技术人员来说,可以根据本发明的发明方案和发明构思结合生产的实际需要做出其他相应的改变或调整,而这些改变和调整都应属于本发明所公开的范围。
Claims (10)
1.一种基于共享数据的联邦建模方法,其特征在于,所述方法包括:
接收多个数据提供方A1~An上传的业务数据;
根据接收到的业务数据确定多个所述数据提供方A1~An所共有的字段,并根据所述共有的字段形成字段集;
判断所述字段集中每一字段对应的值是否位于预设离群值判定区间内;
若存在一个或多个字段对应的值不在所述预设离群值判定区间内,则将所述一个或多个字段从所述字段集中剔除;
根据预设的筛选规则从经过剔除处理后的字段集中筛选出多个关键字段;
对多个所述关键字段进行字段融合,以基于融合后的关键字段的数据构建训练样本;及
向每一所述数据提供方A1~An发送联合建模指令,以控制每一所述数据提供方A1~An依据所述训练样本执行联合建模操作。
2.如权利要求1所述的方法,其特征在于,所述对多个所述关键字段进行字段融合的步骤包括:
根据多个所述关键字段的时间戳对属于指定日期区间的关键字段的字段取值进行求和。
3.如权利要求1所述的方法,其特征在于,所述控制每一所述数据提供方A1~An依据所述训练样本执行联合建模操作的步骤包括:
创建加密密钥对,并将所述加密密钥对的公钥分发给每一所述数据提供方A1~An,以对模型训练过程中每一所述数据提供方A1~An交互的数据进行加密;
将多个所述数据提供方A1~An-1各自计算得到的本地加密损失发送至所述数据提供方An,以通过所述数据提供方An汇总计算得到总加密损失;
接收所述数据提供方An计算得到的总加密损失;
在每一所述数据提供方A1~An中初始化一干扰项并基于所述干扰项计算得到加密干扰项;
接收每一所述数据提供方A1~An计算得到的加密梯度及所述加密干扰项;
对所述总加密损失、每一所述数据提供方A1~An的加密梯度及加密干扰项之和进行解密处理,以得到解密的总损失及解密的每一所述数据提供方A1~An的梯度与干扰项之和;
将解密的梯度与干扰项之和对应发送给每一所述数据提供方A1~An,以使得每一所述数据提供方A1~An计算得到解密梯度;
控制每一所述数据提供方A1~An根据计算得到的解密梯度更新各自的待训练模型的模型参数,以进行后续的模型训练直至总损失函数收敛。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
基于所述训练样本对所述待训练模型进行训练,得到所述训练样本中各关键字段的权重值,其中所述权重值表征各关键字段对所述待训练模型的贡献度;及
将低于预设权重值的关键字段从所述训练样本中剔除。
5.如权利要求3所述的方法,其特征在于,所述待训练模型为业务预测模型,所述方法还包括:
将任意一数据提供方所共有的关键字段代入训练完成的业务预测模型,以得到该数据提供方的业务预测结果。
6.如权利要求3所述的方法,其特征在于,所述方法还包括:
控制多个所述数据提供方A1~An-1根据各自所包含的共有的关键字段计算得到本地加密样本权重,并发送至所述数据提供方An,以通过所述数据提供方An汇总计算得到总加密样本权重;及
控制所述数据提供方An将所述总加密样本权重分发给多个所述数据提供方A1~An-1,以使得每一所述数据提供方A1~An基于所述总加密样本权重计算得到所述加密梯度。
7.如权利要求3所述的方法,其特征在于,所述在每一所述数据提供方A1~An中初始化一干扰项的步骤包括:
获取每一所述数据提供方A1~An计算得到的加密梯度的数量级;及
在每一所述数据提供方A1~An中随机初始化与各自加密梯度具有相同数量级的干扰项。
8.如权利要求3所述的方法,其特征在于,所述在每一所述数据提供方A1~An中初始化一干扰项的步骤包括:
根据每一所述数据提供方A1~An计算得到的加密梯度各自确定一随机值范围;及
在每一所述数据提供方A1~An中随机初始化在各自随机值范围内的干扰项。
9.一种基于共享数据的联邦建模装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-8任一项所述的基于共享数据的联邦建模方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现如权利要求1-8任一项所述的基于共享数据的联邦建模方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910697248.0A CN110443416A (zh) | 2019-07-30 | 2019-07-30 | 基于共享数据的联邦建模装置、方法及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910697248.0A CN110443416A (zh) | 2019-07-30 | 2019-07-30 | 基于共享数据的联邦建模装置、方法及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110443416A true CN110443416A (zh) | 2019-11-12 |
Family
ID=68432432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910697248.0A Pending CN110443416A (zh) | 2019-07-30 | 2019-07-30 | 基于共享数据的联邦建模装置、方法及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110443416A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955915A (zh) * | 2019-12-14 | 2020-04-03 | 支付宝(杭州)信息技术有限公司 | 一种隐私数据的处理方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165725A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于迁移学习的神经网络联邦建模方法、设备及存储介质 |
US20190012592A1 (en) * | 2017-07-07 | 2019-01-10 | Pointr Data Inc. | Secure federated neural networks |
CN109871702A (zh) * | 2019-02-18 | 2019-06-11 | 深圳前海微众银行股份有限公司 | 联邦模型训练方法、***、设备及计算机可读存储介质 |
CN109977694A (zh) * | 2019-03-11 | 2019-07-05 | 暨南大学 | 一种基于协作深度学习的数据共享方法 |
-
2019
- 2019-07-30 CN CN201910697248.0A patent/CN110443416A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190012592A1 (en) * | 2017-07-07 | 2019-01-10 | Pointr Data Inc. | Secure federated neural networks |
CN109165725A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于迁移学习的神经网络联邦建模方法、设备及存储介质 |
CN109871702A (zh) * | 2019-02-18 | 2019-06-11 | 深圳前海微众银行股份有限公司 | 联邦模型训练方法、***、设备及计算机可读存储介质 |
CN109977694A (zh) * | 2019-03-11 | 2019-07-05 | 暨南大学 | 一种基于协作深度学习的数据共享方法 |
Non-Patent Citations (2)
Title |
---|
YANG QIANG: ""Federated Machine Learning : Concept and Applications"", 《ACM TRANSACTIONS ON INTELLIGENT SYSTEMS AND TECHNOLOGY》 * |
赵玮: "《应用机器学习方法度量在线品牌忠诚度模型构建研究》", 30 June 2017 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955915A (zh) * | 2019-12-14 | 2020-04-03 | 支付宝(杭州)信息技术有限公司 | 一种隐私数据的处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443067A (zh) | 基于隐私保护的联邦建模装置、方法及可读存储介质 | |
Wang et al. | Business Innovation based on artificial intelligence and Blockchain technology | |
Li et al. | Blockchain-enabled logistics finance execution platform for capital-constrained E-commerce retail | |
CN106651303B (zh) | 一种基于模板的智能合约处理方法和*** | |
EP3485453A1 (en) | Using a distributed ledger for tracking debt data | |
Chen et al. | Secure social recommendation based on secret sharing | |
CN107454114A (zh) | 一种竞拍方法、服务器及可读存储介质 | |
CN106981004A (zh) | 用于对商品供应商的自主选择的设备、方法和*** | |
CN112465627B (zh) | 基于区块链和机器学习的金融借贷审核方法及*** | |
CN102870086A (zh) | 具有隐私保护控制的个人属性、倾向、推荐行为和历史事件的数字简档*** | |
CN109687952A (zh) | 数据处理方法及其装置、电子装置及存储介质 | |
CN112053164A (zh) | 一种基于区块链的电子商务数据处理方法及*** | |
CN110175208A (zh) | 基于区块链的租赁方法和装置 | |
CN109472615A (zh) | 业务处理方法、装置及设备、可读介质 | |
CN112989457A (zh) | 基于bim和vr技术的建筑设计管理*** | |
CN108346098A (zh) | 一种风控规则挖掘的方法及装置 | |
CN110930090B (zh) | 基于人工智能和区块链的电商大数据物流供应链控制*** | |
CN110443416A (zh) | 基于共享数据的联邦建模装置、方法及可读存储介质 | |
CN117709981A (zh) | 一种烟草产品的监测方法、装置和管理*** | |
El Ayeb et al. | Community detection for mobile money fraud detection | |
US20220172203A1 (en) | Blockchain-secured repository that authenticates actions between mutually unsecure entities | |
CN109409115A (zh) | 一种加密、解密方法及相关装置 | |
CN109598016A (zh) | 机器人添加方法和装置 | |
CN114723012A (zh) | 基于分布式训练***的计算方法和装置 | |
CN114422105A (zh) | 联合建模方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191112 |