CN110838069A - 数据处理方法、装置以及*** - Google Patents

数据处理方法、装置以及*** Download PDF

Info

Publication number
CN110838069A
CN110838069A CN201910975776.8A CN201910975776A CN110838069A CN 110838069 A CN110838069 A CN 110838069A CN 201910975776 A CN201910975776 A CN 201910975776A CN 110838069 A CN110838069 A CN 110838069A
Authority
CN
China
Prior art keywords
local
parameters
model
server
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910975776.8A
Other languages
English (en)
Inventor
***
潘登龙
陆鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ant Fortune Shanghai Financial Information Service Co ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201910975776.8A priority Critical patent/CN110838069A/zh
Publication of CN110838069A publication Critical patent/CN110838069A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Stored Programmes (AREA)

Abstract

本说明书实施例提供了一种数据处理方法,通过两台以上的本地服务器将本地模型参数发送给公用服务器,由公用服务器对本地模型参数进行处理获得校准参数。由于各台本地服务器之间不需要进行数据交换和数据共享,既能实现数据隐私保护,又能增加机器学习的特征空间,从而可以提高模型的预测精度。

Description

数据处理方法、装置以及***
技术领域
本说明书实施例涉及互联网技术领域,尤其涉及一种数据处理方法、装置以及***。
背景技术
伴随着基金行业的迅速发展,基金的种类也在不断增多,如何为用户推荐适合自身需求的基金成为了基金销售机构必须面对的一个问题。基金推荐需要使用大量的用户数据进行机器学习和算法模型训练,用户数据的维度和数量越多越好。然而,目前的基金交易大部分都是通过代销完成,为了避免泄漏用户隐私,不同销售机构之间不能直接进行数据交换和数据共享,这给基金推荐带来了很大的问题。
发明内容
本说明书实施例提供一种数据处理方法、装置以及***。
第一方面,本说明书实施例提供一种数据处理方法,包括:
接收两条以上本地模型参数或者所述本地模型参数对应的密文,每条所述本地模型参数对应由一台本地服务器根据本地的样本集进行模型训练获得;
对两条以上所述本地模型参数进行加权拟合,获得全局最优参数;
根据所述全局最优参数对目标模型参数进行校准,获得校准参数,所述目标模型参数为两条以上所述本地模型参数中的任意一条;
将所述校准参数发送给目标服务器,使所述目标服务器根据所述校准参数生成业务模型,所述目标服务器为获得所述目标模型参数的本地服务器。
第二方面,本说明书实施例提供另一种数据处理方法,包括:
根据本地的样本集进行模型训练,获得本地模型参数;
将所述本地模型参数或者所述本地模型参数对应的密文发送给公用服务器,使所述公用服务器对所述本地模型参数和一条以上其他模型参数进行加权拟合以获得全局最优参数,并根据所述全局最优参数对所述本地模型参数进行校准以获得校准参数,每条所述其他模型参数对应由一台本地服务器根据本地的样本集进行模型训练获得;
从所述公用服务器接收所述校准参数;
根据所述校准参数生成业务模型。
第三方面,本说明书实施例提供一种数据处理装置,包括:
第一接收模块,用于接收两条以上本地模型参数或者所述本地模型参数对应的密文,每条所述本地模型参数对应由一台本地服务器根据本地的样本集进行模型训练获得;
加权拟合模块,用于对两条以上所述本地模型参数进行加权拟合,获得全局最优参数;
校准模块,用于根据所述全局最优参数对目标模型参数进行校准,获得校准参数,所述目标模型参数为两条以上所述本地模型参数中的任意一条;
第一发送模块,用于将所述校准参数发送给目标服务器,使所述目标服务器根据所述校准参数生成业务模型,所述目标服务器为获得所述目标模型参数的本地服务器。
第四方面,本说明书实施例提供另一种数据处理装置,包括:
模型参数获得模块,用于根据本地的样本集进行模型训练,获得本地模型参数;
第三发送模块,用于将所述本地模型参数或者所述本地模型参数对应的密文发送给公用服务器,使所述公用服务器对所述本地模型参数和一条以上其他模型参数进行加权拟合以获得全局最优参数,并根据所述全局最优参数对所述本地模型参数进行校准以获得校准参数,每条所述其他模型参数对应由一台本地服务器根据本地的样本集进行模型训练获得;
第二接收模块,用于从所述公用服务器接收所述校准参数;
模型生成模块,用于根据所述校准参数生成业务模型。
第五方面,本说明书实施例提供一种数据处理***,包括公用服务器和两台以上本地服务器;
所述本地服务器根据本地的样本集进行模型训练,获得本地模型参数;
所述本地服务器将所述本地模型参数或者所述本地模型参数对应的密文发送给所述公用服务器;
所述公用服务器对两条以上所述本地模型参数进行加权拟合,获得全局最优参数;
所述公用服务器根据所述全局最优参数对目标模型参数进行校准,获得校准参数,所述目标模型参数为两条以上所述本地模型参数中的任意一条;
所述公用服务器将所述校准参数发送给目标服务器,使所述目标服务器根据所述校准参数生成业务模型,所述目标服务器为获得所述目标模型参数的本地服务器。
第六方面,本说明书实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据处理方法的步骤。
第七方面,本说明书实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现上述数据处理方法的步骤。
本说明书实施例有益效果如下:
本说明书一个实施例实现了由两台以上的本地服务器根据各自的样本集进行模型训练获得本地模型参数,由公用服务器根据所述本地模型参数进行加权拟合获得全局最优参数,并根据所述全局最优参数对本地模型参数进行校准获得校准参数,最终将所述校准参数发送给目标服务器,使所述目标服务器根据所述校准参数生成业务模型。由于所述全局最优参数是根据所述本地模型参数进行加权拟合获得,相当于综合了各台本地服务器的样本集获得的模型参数,即用作模型训练的数据来源不止一处,因而根据所述全局最优参数对本地模型参数进行校准获得的校准参数,增加了机器学习的特征空间,从而可以提高所述业务模型的预测精度。并且,由于所述校准参数是对所述本地模型参数进行处理获得,各台本地服务器之间不需要进行数据交换和数据共享,因而达到了数据隐私保护的效果。
附图说明
图1为本说明书实施例的数据处理应用场景示意图;
图2为本说明书一种实施例的数据处理方法的流程图;
图3为本说明书另一种实施例的数据处理方法的流程图;
图4为本说明书实施例的本地服务器和公用服务器进行通信的示意图;
图5为本说明书实施例的计算机设备的结构示意图。
具体实施方式
为了更好地理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
本说明书实施例提供的数据处理方法、装置以及***,应用在两个以上组织机构的联合运营场景中,用于生成业务模型。例如,可以应用在基金直销机构和基金代销机构的联合运营场景中,用于根据基金直销机构和基金代销机构的用户数据生成基金推荐模型;又例如,可以应用在银行和第三方借贷公司的联合运营场景中,用于根据银行和第三方借贷公司的用户数据生成借贷审批决策模型。请参见图1,为本说明书实施例的数据处理应用场景示意图。n台本地服务器(本地服务器100、本地服务器101、…、本地服务器10n)与公用服务器200进行通信,n为不小于2的整数。每台本地服务器对应设置在一个组织机构,用于根据本地的样本集进行模型训练获得本地模型参数;所述公用服务器200用于根据所有本地模型参数进行参数处理获得校准参数,并将所述校准参数发送给目标服务器,使所述目标服务器根据所述校准参数生成业务模型。
第一方面,本说明书实施例提供一种数据处理方法,所述数据处理方法运行于公用服务器。图2是所述数据处理方法的流程图,所述数据处理方法包括步骤S202至步骤S208。
S202,接收两条以上本地模型参数或者所述本地模型参数对应的密文,每条所述本地模型参数对应由一台本地服务器根据本地的样本集进行模型训练获得。
在机器学习领域,样本是指数据的特定实例,样本的集合即为所述样本集。根据机器学习解决的具体问题不同,样本的表现形式也不一样。比如采用机器学习为用户推荐基金产品,则样本对应为用户数据,包括但不限于用户职业、用户收入、用户年龄、用户兴趣、用户购买基金产品的渠道等;再比如采用机器学习对文本进行分类,则样本对应为文本。所述根据本地的样本集进行模型训练包括:从所述样本集中提取特征数据;采用预设算法对所述特征数据进行模型训练。所述从所述样本集中提取特征数据,是把原始数据转变为模型训练所需数据的过程,这一过程也被称为特征工程。特征工程能够使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。
以采用机器学习为用户推荐基金产品为例,设置在基金直销机构、基金代销机构等组织机构的本地服务器,各自利用各自对应的组织机构积累的用户数据,经过特征计算引擎,做聚合特征计算、关系特征计算、LBS特征计算等,输出各种维度的特征空间。利用所抽取的特征空间,每台本地服务器采用相同的模型训练算法进行模型训练。所用的模型训练算法,可以是业界常用的逻辑斯蒂回归算法、支持向量机算法、决策树算法、深度学习算法等。需要说明的是,所述预设算法根据本实施例提供的数据处理方法的具体应用场景确定,其可以为二分类模型,也可以为多分类模型,本说明书实施例对此不进行限定。模型训练结束后,每台本地服务器获得各自的本地模型参数,所述本地模型参数为特征数据中各个特征的权重。
所述本地服务器可以直接将所述本地模型参数发送给所述公用服务器。在一种可选实现方式中,所述本地服务器也可以对所述本地模型参数进行加密,将所述本地模型参数对应的密文发送给所述公用服务器。对所述本地模型参数进行加密可以采用对称信息加解密算法,诸如DES、RC5以及IDEA等,其优点是计算量小、加密速度快、加密效率高,其缺点是较为容易破解,不适合用于高级别安全隐私场合,因而对称信息加解密算法可以应用在对实时性要求较高或者加密数据量较大的场景之中,例如实时模型流式计算、DNN模型计算等。对所述本地模型参数进行加密还可以采用非对称信息加解密算法,例如RSA、椭圆曲线加密算法以及秘密分享安全算法等,其优点是加密强度大、不容易破解,其缺点是耗费计算资源、速度较慢,因而非对称信息加解密算法可以运用于对隐私安全级别要求高的场景之中。
若所述本地服务器采用对称信息加解密算法对所述本地模型参数进行加密,则所述本地服务器和所述公用服务器预先存储相同的私钥,所述本地服务器采用预先存储的私钥对所述本地模型参数进行加密,获得所述本地模型参数对应的密文,并将所述本地模型参数对应的密文发送给所述公用服务器。若所述本地服务器采用非对称信息加解密算法对所述本地模型参数进行加密,则由所述公用服务器预先生成一对相互对应的私钥和公钥,所述公用服务器保存所述私钥,并将所述公钥发送给所述本地服务器;所述本地服务器从所述公用服务器接收所述公钥并进行保存,在获得所述本地模型参数后,所述本地服务器采用所述公钥对所述本地模型参数进行加密,获得所述本地模型参数对应的密文,并将所述本地模型参数对应的密文发送给所述公用服务器。
在本说明书实施例中,可以采用Diffie-Hellman算法对所述本地模型参数进行加密。Diffie-Hellman算法让通信双方在完全没有对方任何预先信息的条件下通过不安全信道建立起一个密钥,这个密钥一般作为对称加密的密钥而被双方在后续数据传输中使用。Diffie-Hellman算法仅当需要时才生成密钥,减小了将密钥存储很长一段时间而致使遭受攻击的机会,除对公钥的约定外,密钥交换不需要事先约定其它参数,这也是非对称加密的优势所在。通过所述本地服务器对所述本地模型参数进行加密,将所述本地模型参数对应的密文发送给所述公用服务器,可以有效防止隐私泄露,进一步提高数据安全性。
S204,对两条以上所述本地模型参数进行加权拟合,获得全局最优参数。
若所述公用服务器接收的是两条以上所述本地模型参数,则直接对两条以上所述本地模型参数进行加权拟合;若所述公用服务器接收的是两条以上所述本地模型参数对应的密文,则先采用预先存储的私钥对各个本地模型参数对应的密文进行解密,获得各个本地模型参数,再对两条以上所述本地模型参数进行加权拟合。加权拟合的具体算法可根据实际需求进行选取,例如,可以采用加权平均、加权最小二乘估计、加权直线回归等算法对两条以上所述本地模型参数进行加权拟合。
由于每台本地服务器的样本集均不相同,从所述样本集中提取的特征数据的维度和/或具体内容也不相同。在本说明书实施例中,在对两条以上所述本地模型参数进行加权拟合时,若某台本地服务器提取的特征数据与其他本地服务器提取的特征数据相比,缺少了某一项或者某几项特征,则缺少的特征项对应的权重采用空值替代。以本地服务器A提取的特征数据1为(性别,身高,体重,收入,所属公司),本地服务器B提取的特征数据2为(性别,身高,体重,婚姻状况)为例,本地服务器A获得的本地模型参数为特征数据1中每项特征的权重,本地服务器B获得的本地模型参数为特征数据2中每项特征的权重。在对本地服务器A获得的本地模型参数和本地服务器B获得的本地模型参数进行加权拟合时,对于特征数据1中缺少的“婚姻状况”的权重用空值来替代,对于特征数据2中缺少的“收入”的权重和“所属公司”的权重也用空值来替代,因而对本地服务器A获得的本地模型参数和本地服务器B获得的本地模型参数进行加权拟合后,获得的全局最优参数为特征数据(性别,身高,体重,收入,所属公司,婚姻状况)中每项特征的权重。当然,本领域技术人员知晓,也可以采用其他处理方式对维度和/或具体内容不同的特征数据进行处理,本说明书实施例对此不进行限定。
S206,根据所述全局最优参数对目标模型参数进行校准,获得校准参数,所述目标模型参数为两条以上所述本地模型参数中的任意一条。
在获得所述全局最优参数后,可以根据所述全局最优参数对两条以上所述本地模型参数中的任意一条本地模型参数进行校准。在本说明书实施例中,可以对所述全局最优参数采用反向传播算法,对所述目标模型参数进行校准。具体地,可以从所述公用服务器中存储的抽样样本集内提取特征样本,利用特征样本统计分布的特点,进行特征样本统计分布的处理与调和。例如,进行特征的标准归一化、特征缺失值的补全、特征的One Hot编码、特征的点击率加权统计等,并将处理后的特征样本集作为反向传播算法的调参依据。反向传播算法会依据所述全局最优参数,结合所述本地模型参数与处理后的特征样本集所构建的神经网络,对所述本地模型参数进行校准,获得所述校准参数。
S208,将所述校准参数发送给目标服务器,使所述目标服务器根据所述校准参数生成业务模型,所述目标服务器为获得所述目标模型参数的本地服务器。
所述目标服务器将所述校准参数代入进行模型训练采用的模型训练算法中,代入了所述校准参数的模型训练算法即为所述业务模型。以采用机器学习为用户推荐基金产品为例,所述业务模型即为基金产品推荐模型。
在一种可选实现方式中,在执行步骤S208之前,还包括:根据所述校准参数进行模型评估;根据评估结果判断是否需要对所述校准参数进行优化;若不需要对所述校准参数进行优化,则执行步骤S208,否则对所述校准参数进行优化。具体地,根据进行模型训练时所采用的模型训练算法,可以选择AUC值以及F值等作为评估指标。根据对所述业务模型的期望性能,预先设置判断条件。若所述模型评估的结果不满足所述判断条件,则确定需要对所述校准参数进行优化。以AUC值作为评估指标为例,所述判断条件可以为所述业务模型的AUC值不小于预设AUC值。若不需要对所述校准参数进行优化,表明所述业务模型性能已经达到了期望性能,直接将所述校准参数发送给所述目标服务器;若需要对所述校准参数进行优化,则采取对数据进行数据清洗、对数据进行数据选择、对特征进行特征工程的相关处理或者对算法进行调参等措施,直至所述业务模型性能达到期望性能。通过进行模型评估,根据评估结果判断是否需要对所述校准参数进行优化,可以获得性能最优的业务模型,进一步提高所述业务模型的预测精度。
在另一种可选实现方式中,若所述公用服务器未进行模型评估,则所述目标服务器在所述根据所述校准参数生成业务模型之前,还包括:根据所述校准参数进行模型评估;根据评估结果判断是否需要对所述校准参数进行优化;若不需要对所述校准参数进行优化,则执行所述根据所述校准参数生成业务模型,否则对所述校准参数进行优化。所述目标服务器进行模型评估的具体实现方式与所述公用服务器进行模型评估的具体实现方式类似,在此不再赘述。
本说明书实施例提供的数据处理方法,由于所述全局最优参数是对两条以上所述本地模型参数进行加权拟合获得,因而所述全局最优参数是两条以上所述本地模型参数的综合表现,根据所述全局最优参数对本地模型参数进行校准获得的校准参数,增加了机器学习的特征空间,从而可以提高所述业务模型的预测精度。并且,由于所述校准参数是对本地模型参数进行参数处理获得,各台本地服务器之间不需要进行数据交换和数据共享,因而达到了数据隐私保护的效果。
第二方面,基于同样的发明构思,本说明书实施例提供另一种数据处理方法,所述数据处理方法运行于本地服务器。图3是所述数据处理方法的流程图,所述数据处理方法包括步骤S302和步骤S308:
S302,根据本地的样本集进行模型训练,获得本地模型参数;
S304,将所述本地模型参数或者所述本地模型参数对应的密文发送给公用服务器,使所述公用服务器对所述本地模型参数和一条以上其他模型参数进行加权拟合以获得全局最优参数,并根据所述全局最优参数对所述本地模型参数进行校准以获得校准参数,每条所述其他模型参数对应由一台本地服务器根据本地的样本集进行模型训练获得;
S306,从所述公用服务器接收所述校准参数;
S308,根据所述校准参数生成业务模型。
在一种可选实现方式中,所述根据本地的样本集进行模型训练包括:
从所述样本集中提取特征数据;
采用预设算法对所述特征数据进行模型训练。
在一种可选实现方式中,所述将所述本地模型参数或者所述本地模型参数对应的密文发送给公用服务器包括:
将所述本地模型参数对应的密文发送给所述公用服务器;
在所述根据本地的样本集进行模型训练,获得本地模型参数之后,还包括:
采用预先存储的私钥或者公钥对所述本地模型参数进行加密,获得所述本地模型参数对应的密文。
在一种可选实现方式中,所述采用预先存储的私钥或者公钥对所述本地模型参数进行加密包括:
采用所述公钥对所述本地模型参数进行加密;
在所述采用所述公钥对所述本地模型参数进行加密之前,还包括:
从所述公用服务器接收所述公钥;
保存所述公钥。
在一种可选实现方式中,在所述根据所述校准参数生成业务模型之前,还包括:
根据所述校准参数进行模型评估;
根据评估结果判断是否需要对所述校准参数进行优化;
若不需要对所述校准参数进行优化,则执行所述根据所述校准参数生成业务模型,否则对所述校准参数进行优化。
步骤S302和步骤S308的具体实现方法可参考本说明书实施例第一方面提供的数据处理方法,在此不再赘述。
第三方面,基于同样的发明构思,本说明书实施例提供一种数据处理装置,所述数据处理装置运行于公用服务器,包括:
第一接收模块,用于接收两条以上本地模型参数或者所述本地模型参数对应的密文,每条所述本地模型参数对应由一台本地服务器根据本地的样本集进行模型训练获得;
加权拟合模块,用于对两条以上所述本地模型参数进行加权拟合,获得全局最优参数;
校准模块,用于根据所述全局最优参数对目标模型参数进行校准,获得校准参数,所述目标模型参数为两条以上所述本地模型参数中的任意一条;
第一发送模块,用于将所述校准参数发送给目标服务器,使所述目标服务器根据所述校准参数生成业务模型,所述目标服务器为获得所述目标模型参数的本地服务器。
在一种可选实现方式中,所述第一接收模块用于接收两条以上所述本地模型参数对应的密文,所述装置还包括:
解密模块,用于采用预先存储的私钥对所述本地模型参数对应的密文进行解密,获得所述本地模型参数。
在一种可选实现方式中,所述数据处理装置还包括:
秘钥生成模块,用于生成所述私钥以及与所述私钥对应的公钥;
第一存储模块,用于保存所述私钥;
第二发送模块,用于将所述公钥发送给所述本地服务器。
在一种可选实现方式中,所述校准模块用于采用反向传播算法对所述目标模型参数进行校准。
在一种可选实现方式中,所述数据处理装置还包括第一评估模块、第一判断模块以及第一优化模块;
所述第一评估模块用于根据所述校准参数进行模型评估;
所述第一判断模块用于根据评估结果判断是否需要对所述校准参数进行优化;
所述第一优化模块用于在需要对所述校准参数进行优化时,对所述校准参数进行优化;
所述第一发送模块用于在不需要对所述校准参数进行优化时,将所述校准参数发送给目标服务器。
第四方面,基于同样的发明构思,本说明书实施例提供另一种数据处理装置,所述数据处理装置运行于本地服务器,包括:
模型参数获得模块,用于根据本地的样本集进行模型训练,获得本地模型参数;
第三发送模块,用于将所述本地模型参数或者所述本地模型参数对应的密文发送给公用服务器,使所述公用服务器对所述本地模型参数和一条以上其他模型参数进行加权拟合以获得全局最优参数,并根据所述全局最优参数对所述本地模型参数进行校准以获得校准参数,每条所述其他模型参数对应由一台本地服务器根据本地的样本集进行模型训练获得;
第二接收模块,用于从所述公用服务器接收所述校准参数;
模型生成模块,用于根据所述校准参数生成业务模型。
在一种可选实现方式中,所述模型参数获得模块包括:
特征提取模块,用于从所述样本集中提取特征数据;
模型训练模块,用于采用预设算法对所述特征数据进行模型训练。
在一种可选实现方式中,所述第三发送模块用于将所述本地模型参数对应的密文发送给所述公用服务器,所述数据处理装置还包括:
加密模块,用于采用预先存储的私钥或者公钥对所述本地模型参数进行加密,获得所述本地模型参数对应的密文。
在一种可选实现方式中,所述加密模块用于采用所述公钥对所述本地模型参数进行加密,所述数据处理装置还包括;
第三接收模块,用于从所述公用服务器接收所述公钥;
第二存储模块,用于保存所述公钥。
在一种可选实现方式中,所述数据处理装置还包括第二评估模块、第二判断模块以及第二优化模块;
所述第二评估模块用于根据所述校准参数进行模型评估;
所述第二判断模块用于根据评估结果判断是否需要对所述校准参数进行优化;
所述第二优化模块用于在需要对所述校准参数进行优化时,对所述校准参数进行优化;
所述模型生成模块用于在不需要对所述校准参数进行优化时,根据所述校准参数生成业务模型。
第五方面,基于同样的发明构思,本说明书实施例提供一种数据处理***,包括公用服务器和两台以上本地服务器,图4为所述本地服务器和所述公用服务器进行通信的示意图。
所述本地服务器根据本地的样本集进行模型训练,获得本地模型参数;
所述本地服务器将所述本地模型参数或者所述本地模型参数对应的密文发送给所述公用服务器;
所述公用服务器对两条以上所述本地模型参数进行加权拟合,获得全局最优参数;
所述公用服务器根据所述全局最优参数对目标模型参数进行校准,获得校准参数,所述目标模型参数为两条以上所述本地模型参数中的任意一条;
所述公用服务器将所述校准参数发送给目标服务器,使所述目标服务器根据所述校准参数生成业务模型,所述目标服务器为获得所述目标模型参数的本地服务器。
所述公用服务器的具体结构和工作原理可参考本说明书实施例第一方面提供的数据处理方法和第三方面提供的数据处理装置的描述,所述本地服务器的具体结构和工作原理可参考本说明书实施例第二方面提供的数据处理方法和第四方面提供的数据处理装置的描述,在此不再赘述。
第六方面,基于与前述实施例中数据处理方法同样的发明构思,本说明书实施例还提供一种计算机设备,如图5所示,包括存储器504、处理器502及存储在存储器504上并可在处理器502上运行的计算机程序,所述处理器502执行所述程序时实现前文第一方面或者第二方面提供的数据处理方法的步骤。
其中,在图5中,总线架构(用总线500来代表),总线500可以包括任意数量的互联的总线和桥,总线500将包括由处理器502代表的一个或多个处理器和存储器504代表的存储器的各种电路链接在一起。总线500还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口505在总线500和接收器501和发送器503之间提供接口。接收器501和发送器503可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器502负责管理总线500和通常的处理,而存储器504可以被用于存储处理器502在执行操作时所使用的数据。
第七方面,基于与前述实施例中数据处理方法同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文第一方面或者第二方面提供的数据处理方法的步骤。
本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

Claims (23)

1.一种数据处理方法,包括:
接收两条以上本地模型参数或者所述本地模型参数对应的密文,每条所述本地模型参数对应由一台本地服务器根据本地的样本集进行模型训练获得;
对两条以上所述本地模型参数进行加权拟合,获得全局最优参数;
根据所述全局最优参数对目标模型参数进行校准,获得校准参数,所述目标模型参数为两条以上所述本地模型参数中的任意一条;
将所述校准参数发送给目标服务器,使所述目标服务器根据所述校准参数生成业务模型,所述目标服务器为获得所述目标模型参数的本地服务器。
2.根据权利要求1所述的方法,所述接收两条以上本地模型参数或者所述本地模型参数对应的密文包括:
接收两条以上所述本地模型参数对应的密文;
在所述对两条以上所述本地模型参数进行加权拟合之前,还包括:
采用预先存储的私钥对所述本地模型参数对应的密文进行解密,获得所述本地模型参数。
3.根据权利要求2所述的方法,在所述接收两条以上所述本地模型参数对应的密文之前,还包括:
生成所述私钥以及与所述私钥对应的公钥;
保存所述私钥,并将所述公钥发送给所述本地服务器。
4.根据权利要求1所述的方法,所述根据所述全局最优参数对目标模型参数进行校准包括:
采用反向传播算法对所述目标模型参数进行校准。
5.根据权利要求1所述的方法,在所述将所述校准参数发送给目标服务器之前,还包括:
根据所述校准参数进行模型评估;
根据评估结果判断是否需要对所述校准参数进行优化;
若不需要对所述校准参数进行优化,则执行所述将所述校准参数发送给目标服务器,否则对所述校准参数进行优化。
6.一种数据处理方法,包括:
根据本地的样本集进行模型训练,获得本地模型参数;
将所述本地模型参数或者所述本地模型参数对应的密文发送给公用服务器,使所述公用服务器对所述本地模型参数和一条以上其他模型参数进行加权拟合以获得全局最优参数,并根据所述全局最优参数对所述本地模型参数进行校准以获得校准参数,每条所述其他模型参数对应由一台本地服务器根据本地的样本集进行模型训练获得;
从所述公用服务器接收所述校准参数;
根据所述校准参数生成业务模型。
7.根据权利要求6所述的方法,所述根据本地的样本集进行模型训练包括:
从所述样本集中提取特征数据;
采用预设算法对所述特征数据进行模型训练。
8.根据权利要求6所述的方法,所述将所述本地模型参数或者所述本地模型参数对应的密文发送给公用服务器包括:
将所述本地模型参数对应的密文发送给所述公用服务器;
在所述根据本地的样本集进行模型训练,获得本地模型参数之后,还包括:
采用预先存储的私钥或者公钥对所述本地模型参数进行加密,获得所述本地模型参数对应的密文。
9.根据权利要求8所述的方法,所述采用预先存储的私钥或者公钥对所述本地模型参数进行加密包括:
采用所述公钥对所述本地模型参数进行加密;
在所述采用所述公钥对所述本地模型参数进行加密之前,还包括:
从所述公用服务器接收所述公钥;
保存所述公钥。
10.根据权利要求6所述的方法,在所述根据所述校准参数生成业务模型之前,还包括:
根据所述校准参数进行模型评估;
根据评估结果判断是否需要对所述校准参数进行优化;
若不需要对所述校准参数进行优化,则执行所述根据所述校准参数生成业务模型,否则对所述校准参数进行优化。
11.一种数据处理装置,包括:
第一接收模块,用于接收两条以上本地模型参数或者所述本地模型参数对应的密文,每条所述本地模型参数对应由一台本地服务器根据本地的样本集进行模型训练获得;
加权拟合模块,用于对两条以上所述本地模型参数进行加权拟合,获得全局最优参数;
校准模块,用于根据所述全局最优参数对目标模型参数进行校准,获得校准参数,所述目标模型参数为两条以上所述本地模型参数中的任意一条;
第一发送模块,用于将所述校准参数发送给目标服务器,使所述目标服务器根据所述校准参数生成业务模型,所述目标服务器为获得所述目标模型参数的本地服务器。
12.根据权利要求11所述的装置,所述第一接收模块用于接收两条以上所述本地模型参数对应的密文,所述装置还包括:
解密模块,用于采用预先存储的私钥对所述本地模型参数对应的密文进行解密,获得所述本地模型参数。
13.根据权利要求12所述的装置,还包括:
秘钥生成模块,用于生成所述私钥以及与所述私钥对应的公钥;
第一存储模块,用于保存所述私钥;
第二发送模块,用于将所述公钥发送给所述本地服务器。
14.根据权利要求11所述的装置,所述校准模块用于采用反向传播算法对所述目标模型参数进行校准。
15.根据权利要求11所述的装置,还包括第一评估模块、第一判断模块以及第一优化模块;
所述第一评估模块用于根据所述校准参数进行模型评估;
所述第一判断模块用于根据评估结果判断是否需要对所述校准参数进行优化;
所述第一优化模块用于在需要对所述校准参数进行优化时,对所述校准参数进行优化;
所述第一发送模块用于在不需要对所述校准参数进行优化时,将所述校准参数发送给目标服务器。
16.一种数据处理装置,包括:
模型参数获得模块,用于根据本地的样本集进行模型训练,获得本地模型参数;
第三发送模块,用于将所述本地模型参数或者所述本地模型参数对应的密文发送给公用服务器,使所述公用服务器对所述本地模型参数和一条以上其他模型参数进行加权拟合以获得全局最优参数,并根据所述全局最优参数对所述本地模型参数进行校准以获得校准参数,每条所述其他模型参数对应由一台本地服务器根据本地的样本集进行模型训练获得;
第二接收模块,用于从所述公用服务器接收所述校准参数;
模型生成模块,用于根据所述校准参数生成业务模型。
17.根据权利要求16所述的装置,所述模型参数获得模块包括:
特征提取模块,用于从所述样本集中提取特征数据;
模型训练模块,用于采用预设算法对所述特征数据进行模型训练。
18.根据权利要求16所述的装置,所述第三发送模块用于将所述本地模型参数对应的密文发送给所述公用服务器,所述装置还包括:
加密模块,用于采用预先存储的私钥或者公钥对所述本地模型参数进行加密,获得所述本地模型参数对应的密文。
19.根据权利要求18所述的装置,所述加密模块用于采用所述公钥对所述本地模型参数进行加密,所述装置还包括;
第三接收模块,用于从所述公用服务器接收所述公钥;
第二存储模块,用于保存所述公钥。
20.根据权利要求16所述的装置,还包括第二评估模块、第二判断模块以及第二优化模块;
所述第二评估模块用于根据所述校准参数进行模型评估;
所述第二判断模块用于根据评估结果判断是否需要对所述校准参数进行优化;
所述第二优化模块用于在需要对所述校准参数进行优化时,对所述校准参数进行优化;
所述模型生成模块用于在不需要对所述校准参数进行优化时,根据所述校准参数生成业务模型。
21.一种数据处理***,包括公用服务器和两台以上本地服务器;
所述本地服务器根据本地的样本集进行模型训练,获得本地模型参数;
所述本地服务器将所述本地模型参数或者所述本地模型参数对应的密文发送给所述公用服务器;
所述公用服务器对两条以上所述本地模型参数进行加权拟合,获得全局最优参数;
所述公用服务器根据所述全局最优参数对目标模型参数进行校准,获得校准参数,所述目标模型参数为两条以上所述本地模型参数中的任意一条;
所述公用服务器将所述校准参数发送给目标服务器,使所述目标服务器根据所述校准参数生成业务模型,所述目标服务器为获得所述目标模型参数的本地服务器。
22.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至10任一项所述方法的步骤。
23.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现权利要求1至10任一项所述方法的步骤。
CN201910975776.8A 2019-10-15 2019-10-15 数据处理方法、装置以及*** Pending CN110838069A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910975776.8A CN110838069A (zh) 2019-10-15 2019-10-15 数据处理方法、装置以及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910975776.8A CN110838069A (zh) 2019-10-15 2019-10-15 数据处理方法、装置以及***

Publications (1)

Publication Number Publication Date
CN110838069A true CN110838069A (zh) 2020-02-25

Family

ID=69575398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910975776.8A Pending CN110838069A (zh) 2019-10-15 2019-10-15 数据处理方法、装置以及***

Country Status (1)

Country Link
CN (1) CN110838069A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111490995A (zh) * 2020-06-12 2020-08-04 支付宝(杭州)信息技术有限公司 保护隐私的模型训练方法和装置、数据处理方法、服务器
CN111800411A (zh) * 2020-07-02 2020-10-20 支付宝(杭州)信息技术有限公司 保护隐私的业务预测模型联合更新方法及装置
CN113360561A (zh) * 2021-06-15 2021-09-07 广州振旭信息科技有限公司 一种电力测量数据处理***及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346372A (zh) * 2013-07-31 2015-02-11 国际商业机器公司 用于评估预测模型的方法和装置
CN107169534A (zh) * 2017-07-04 2017-09-15 北京京东尚科信息技术有限公司 模型训练方法及装置、存储介质、电子设备
CN107844837A (zh) * 2017-10-31 2018-03-27 第四范式(北京)技术有限公司 针对机器学习算法进行算法参数调优的方法及***
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN109165249A (zh) * 2018-08-07 2019-01-08 阿里巴巴集团控股有限公司 数据处理模型构建方法、装置、服务器和用户端
CN109447183A (zh) * 2018-11-27 2019-03-08 东软集团股份有限公司 模型训练方法、装置、设备以及介质
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN109754060A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 一种神经网络机器学习模型的训练方法及装置
CN109871702A (zh) * 2019-02-18 2019-06-11 深圳前海微众银行股份有限公司 联邦模型训练方法、***、设备及计算机可读存储介质
CN109934512A (zh) * 2019-03-28 2019-06-25 努比亚技术有限公司 一种预测模型的训练方法及***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346372A (zh) * 2013-07-31 2015-02-11 国际商业机器公司 用于评估预测模型的方法和装置
CN107169534A (zh) * 2017-07-04 2017-09-15 北京京东尚科信息技术有限公司 模型训练方法及装置、存储介质、电子设备
CN107844837A (zh) * 2017-10-31 2018-03-27 第四范式(北京)技术有限公司 针对机器学习算法进行算法参数调优的方法及***
CN109754060A (zh) * 2017-11-06 2019-05-14 阿里巴巴集团控股有限公司 一种神经网络机器学习模型的训练方法及装置
CN108875821A (zh) * 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN109165249A (zh) * 2018-08-07 2019-01-08 阿里巴巴集团控股有限公司 数据处理模型构建方法、装置、服务器和用户端
CN109447183A (zh) * 2018-11-27 2019-03-08 东软集团股份有限公司 模型训练方法、装置、设备以及介质
CN109684855A (zh) * 2018-12-17 2019-04-26 电子科技大学 一种基于隐私保护技术的联合深度学习训练方法
CN109871702A (zh) * 2019-02-18 2019-06-11 深圳前海微众银行股份有限公司 联邦模型训练方法、***、设备及计算机可读存储介质
CN109934512A (zh) * 2019-03-28 2019-06-25 努比亚技术有限公司 一种预测模型的训练方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111490995A (zh) * 2020-06-12 2020-08-04 支付宝(杭州)信息技术有限公司 保护隐私的模型训练方法和装置、数据处理方法、服务器
CN111800411A (zh) * 2020-07-02 2020-10-20 支付宝(杭州)信息技术有限公司 保护隐私的业务预测模型联合更新方法及装置
CN111800411B (zh) * 2020-07-02 2021-04-02 支付宝(杭州)信息技术有限公司 保护隐私的业务预测模型联合更新方法及装置
CN113360561A (zh) * 2021-06-15 2021-09-07 广州振旭信息科技有限公司 一种电力测量数据处理***及方法

Similar Documents

Publication Publication Date Title
US11196541B2 (en) Secure machine learning analytics using homomorphic encryption
WO2020015478A1 (zh) 基于模型的预测方法和装置
EP3114602B1 (en) Method and apparatus for verifying processed data
US20160020898A1 (en) Privacy-preserving ridge regression
US11088834B2 (en) System for privacy-preserving monetization of big data and method for using the same
CN110838069A (zh) 数据处理方法、装置以及***
CN105122721A (zh) 针对加密数据的托管安全计算
CN110533419B (zh) 基于区块链的风控模型的共享方法、装置及服务器
JP7422892B2 (ja) 分類の正確さを改善するための機械学習モデリングデータの処理
JP7471445B2 (ja) コンテンツの配信と分析のためのプライバシーを守る機械学習
CN112039702A (zh) 基于联邦学习和相互学习的模型参数训练方法及装置
CN113542228A (zh) 基于联邦学习的数据传输方法、装置以及可读存储介质
WO2022156594A1 (zh) 联邦模型训练方法、装置、电子设备、计算机程序产品及计算机可读存储介质
CN111949998B (zh) 对象检测及请求方法、数据处理***、装置及存储介质
CN112818369A (zh) 一种联合建模方法及装置
CN113221153A (zh) 图神经网络训练方法、装置、计算设备及存储介质
CN111563817A (zh) 记录介质、通信设备和通信方法
CN110874481B (zh) 一种基于gbdt模型的预测方法和装置
CN112101609B (zh) 关于用户还款及时性的预测***、方法、装置及电子设备
CN114491616A (zh) 基于区块链和同态加密的联邦学习方法和应用
Shanmugarasa et al. A systematic review of federated learning from clients’ perspective: challenges and solutions
CN111859440B (zh) 基于混合协议的分布式隐私保护逻辑回归模型的样本分类方法
CN116432040B (zh) 基于联邦学习的模型训练方法、装置、介质以及电子设备
CN117675270A (zh) 面向纵向联邦学习的多模态数据加密传输方法及***
WO2023077627A1 (zh) 一种基于区块链的隐私保护方案聚合方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211224

Address after: 200000 room 602, No. 618 Wai Road, Huangpu District, Shanghai

Applicant after: Ant fortune (Shanghai) Financial Information Service Co.,Ltd.

Address before: 310000 801-11 section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: Alipay (Hangzhou) Information Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200225