CN114398671B - 基于特征工程iv值的隐私计算方法、***和可读存储介质 - Google Patents

基于特征工程iv值的隐私计算方法、***和可读存储介质 Download PDF

Info

Publication number
CN114398671B
CN114398671B CN202111654397.2A CN202111654397A CN114398671B CN 114398671 B CN114398671 B CN 114398671B CN 202111654397 A CN202111654397 A CN 202111654397A CN 114398671 B CN114398671 B CN 114398671B
Authority
CN
China
Prior art keywords
value
sample data
ciphertext
participant
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111654397.2A
Other languages
English (en)
Other versions
CN114398671A (zh
Inventor
潘光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Basebit Shanghai Information Technology Co ltd
Original Assignee
Basebit Shanghai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Basebit Shanghai Information Technology Co ltd filed Critical Basebit Shanghai Information Technology Co ltd
Priority to CN202111654397.2A priority Critical patent/CN114398671B/zh
Publication of CN114398671A publication Critical patent/CN114398671A/zh
Application granted granted Critical
Publication of CN114398671B publication Critical patent/CN114398671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Security & Cryptography (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种基于特征工程IV值的隐私计算方法、***和可读存储介质,所述方法包括:参与方A生成自己的公私钥对,并将公钥公开给参与方B;参与方A用公钥加密各个样本数据的标签值,并将密文标签值发送给参与方B;参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值;参与方B将各分组的密文IV值进行累加得到最终密文IV值;参与方B将最终密文IV值进行加扰后发送给参与方A;参与方A利用私钥解密最终密文IV加扰值,得到明文IV加扰值并发送给参与方B;参与方B对明文IV加扰值进行去扰后得到该特征的明文IV值。本发明能够实现多方特征工程IV值的隐私计算。

Description

基于特征工程IV值的隐私计算方法、***和可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于特征工程IV值的隐私计算方法、***和可读存储介质。
背景技术
传统机器学习算法中,当特征输入数量较大时,需要计算特征工程IV值(简称IV值)进行筛选,IV值越高,表示特征蕴含信息量越大,越适合于机器学习算法的模型训练。而随着数据隐私及安全保护的日重要性日益提升,基于明文数据计算IV值的方法已经难以满足隐私保护要求,因此,基于隐私保护技术实现IV值计算的技术方法受到越来越多的重视。传统多采用以下MPC和TEE两种隐私保护技术方案。
MPC作为一种隐私保护技术,能用于特征工程IV值的加密计算,其基本思想是通过对输入数据进行秘密分享,多个参与方各持有一份密文分享数据,然后基于密文分享数据进行加密计算。最终多个参与方的密文结果汇总在一起才能恢复出明文结果,各参与方在密文计算过程中无法推知其他参与方的明文输入数据;然而MPC技术对通信带宽要求较高,在网络带宽较低且延时较大时,算法运行时间会远远大于明文算法运行时间,而且带宽需求随着参与方的增加而乘指数级增长,因此MPC技术不适用于数据传输量较大的算法。特征工程IV值计算过程中需要大量数据交换,采用MPC技术进行密文计算时间太长。
TEE作为一种可信执行环境的隐私保护技术,允许在安全环境下进行数据明文计算,明文数据对安全环境之外的其他任何攻击者都不可见,因此可以保证数据隐私安全。然而基于TEE技术的隐私计算程序需要运行在支持TEE技术的CPU上,因此需要对CPU生产商绝对信任,这也导致TEE技术的安全模型需要依赖于CPU生产商。
另外,传统在计算出特征工程IV值之后,则直接筛选出大于预设值的样本数据进行入库训练,这种训练方式过多依赖单个库的样本数据,从而导致模型训练优化效果不佳,同时,受限于机器学习自身神经网路的局限,即便是采用更大IV值的样本数据进行训练,输出的预测结果值也会有相应的误差,如何进一步优化模型参数,以及提高预测结果值的准确度是当前亟待解决的问题。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种基于特征工程IV值的隐私计算方法、***和可读存储介质,能够实现多方特征工程IV值的隐私计算,并基于特征工程IV值选定合适的训练样本,以进一步优化模型参数,提升机器学习算法的预测精度。
本发明第一方面提出了一种基于特征工程IV值的隐私计算方法,所述方法包括:
预设特征工程IV值联合计算的参与方A和参与方B,以及多个样本数据,且参与方A持有各个样本数据的标签值,参与方B持有各个样本数据的特征值;
参与方A生成自己的公私钥对,并将公钥公开给参与方B;
参与方A利用自己的公钥加密各个样本数据的标签值生成各个样本数据的密文标签值,并将各个样本数据的密文标签值发送给参与方B;
针对某特征,参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值;
参与方B将各分组的密文IV值进行累加,得到该特征的最终密文IV值;
参与方B将该特征的最终密文IV值进行加扰,得到最终密文IV加扰值并发送给参与方A;
参与方A利用自己的私钥解密该特征的最终密文IV加扰值,得到该特征的明文IV加扰值并发送给参与方B;
参与方B对该特征的明文IV加扰值进行去扰后得到该特征的明文IV值。
本方案中,针对某特征,参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值,具体包括:
预设m个样本数据,各个样本的标签值记为Li∈{0,1},n个特征,Li=1表示正样本,Li=0表示负样本,全部正样本数量记为Gtotal,全部负样本数量记为Btotal,i为m个样本数据中某个样本数据的序号,且全部正样本数量记Gtotal和全部负样本数量记Btotal为参与方A和参与方B所共知;
对该特征的m个样本数据进行分为N组,每组的样本数量为ml,l为组的序号,且l∈[1,N],各组所包含的全部正样本数量记为Gl,全部负样本数量记为Bl,且满足
Figure BDA0003447857260000031
获取各组中的每个样本数据的特征值Fl,j,并采用参与方A的公钥对各组中的每个样本数据的特征值Fl,j进行加密得到密文特征值
Figure BDA0003447857260000032
其中,l表示第l组,j表示第l组的第j个样本数据,Fl,j表示第l组的第j个样本数据的特征值;
根据从参与方A接收到的各个样本数据的密文标签值,获取各组中的每个样本数据的标签值密文值
Figure BDA0003447857260000033
并结合密文特征值/>
Figure BDA0003447857260000034
计算出每组的全部正样本数量密文值
Figure BDA0003447857260000035
采用参与方A的公钥对每组的样本数量ml进行加密,得到每组的样本数量密文值
Figure BDA0003447857260000041
结合每组的样本数量密文值/>
Figure BDA0003447857260000042
和每组的全部正样本数量密文值/>
Figure BDA0003447857260000043
计算出每组的全部负样本数量密文值/>
Figure BDA0003447857260000044
计算每组的WOE值,记
Figure BDA0003447857260000045
并根据每组的WOE值计算每组的IV值,/>
Figure BDA0003447857260000046
Figure BDA0003447857260000047
记/>
Figure BDA0003447857260000048
则采用参与方A的公钥对Al得到密文值/>
Figure BDA0003447857260000049
Figure BDA00034478572600000410
进行变换得到/>
Figure BDA00034478572600000411
Figure BDA00034478572600000412
对/>
Figure BDA00034478572600000413
进行变换得到/>
Figure BDA00034478572600000414
Figure BDA00034478572600000415
记ln(1+gl)/ln10的密文值为/>
Figure BDA00034478572600000416
记ln(1+bl)/ln10的密文值为/>
Figure BDA00034478572600000417
计算出该特征的每组密文IV值为:
Figure BDA00034478572600000418
本方案中,参与方B将该特征的最终密文IV值进行加扰,得到最终密文IV加扰值并发送给参与方A,具体包括:
由参与方B产生随机数e,并采用参与方A的公钥对随机数e进行加密得到随机数e的密文值eenc,预设最终密文IV值为IVenc,则根据计算式计算出最终密文IV加扰值IVenc_ert=IVenc+eenc
由参与方B将最终密文IV加扰值IVenc_err发送给参与方A。
本方案中,参与方B产生随机数e,具体包括:
预设随机数支持方C,随机源为K个;随机数支持方C持有K个字符串Rx,其中x表示第x个随机源号码,且x∈[1,K];且每个字符串包括按照顺序排列的p个字符,且p为偶数;
随机数支持方C按照随机的方式对每个字符串的p个字符进行两两配对,形成p/2个配对组,每个配对组包括前字符和后字符;
随机数支持方C将每个字符串的p/2个配对组的前字符发送给参与方B,并进行本地预存;
当参与方B需要产生随机数时,则向随机数支持方C发送指令信息;
所述随机数支持方C基于指令信息触发采用K个字符串Rx进行调制光子串,具体为:将每个字符串中的p/2个配对组的前字符分别作为调制光子串的各个调制基随机选取的第一选取源,并将每个字符串中的p/2个配对组的后字符作为调制光子串的调制初始信号的第二选取源;针对每个字符串,从第一选取源中,随机选取对应的前字符,作为调制基,并从第二选取源中选取与前字符相对应的后字符,作为调制初始信号,由各个调制基分别将对应的调制初始信号调制成光子的偏振态;基于相同的字符串,将所有光子的偏振态进行组合形成对应的光子串,将K个光子串与每个字符串对应调制基的随机选取方式一并通过量子通信发送给参与方B;
参与方B接收到K个光子串与每个字符串对应调制基的随机选取方式,基于每个光子串匹配出对应字符串标识,并结合每个字符串对应调制基的随机选取方式从每个字符串的p/2个配对组的前字符中找出对应的前字符作为测量基,并采用测量基对相应的光子串进行测量,得到测量结果;
将测量结果作为第x个随机源的输入,并经由混沌函数进行处理,输出第x个随机源的初始随机数;
经过多次混沌运动得到第x个随机源当前时刻的随机数,基于各个随机源当前时刻的随机数进行异或运算输出当前时刻的随机数e。
本方案中,在参与方B对该特征的明文IV加扰值进行去扰后得到该特征的明文IV值之后,所述方法还包括:
预设有多个样本数据组,分别计算出该特征在多个样本数据组的IV值;
判断某个样本数据组的IV值是否大于第一预设阈值,如果是,则作为选中样本数据组,并提取入样本训练库中,预设样本训练库中有S个选中样本数据组;
分别采用样本训练库中各个选中样本数据组依次对预设的神经网络机器学习模型进行训练,分别得到对应的优化参数;
以样本训练库中的某个选中样本数据组为目标选中样本数据组,并将其对应的优化参数依次与其它选中样本数据组对应的优化参数进行逐一作差,得到S-1个差值;
判断差值的绝对值是否大于第二预设阈值,如果是,则判定目标选中样本数据组为疑似无效样本数据组一次,当目标选中样本数据组与剩余选中样本数据组全部完成作差比对后,记录目标选中样本数据组为疑似无效样本数据组的总次数;
判断总次数是否大于第三预设阈值,如果是,则判定目标选中样本数据组为无效样本数据组,否者判定为有效样本数据组;
将样本训练库中的每个选中样本数据组与剩余的选中样本数据组对应的优化参数进行作差比对,并筛选出所有的无效样本数据组;
将所有的无效样本数据组对应的优化参数剔除,并保留剩余所有的有效样本数据组对应的优化参数;
对所有的有效样本数据组对应的优化参数进行平均值计算,得到优化参数平均值,并将优化参数平均值置入神经网络机器学习模型中,以完成训练过程。
本方案中,在将优化参数平均值置入神经网络机器学习模型中之后,所述方法还包括:
获取当前的表象数据信息,将表象数据信息输入至神经网络机器学习模型进行机器学习,得到结果预测值;
从历史数据库中获取多个历史数据,每个历史数据至少包括历史表象数据信息和对应的历史结果真实值;
针对每个历史数据的历史表象数据信息进行特征分析,分别得到每个历史数据的历史表象数据信息的第一特征量;
针对当前的表象数据信息进行特征分析,得到第二特征量;
对比每个历史数据的历史表象数据信息的第一特征量与当前的表象数据信息的第二特征量之间的差异率;
将差异率小于第四预设阈值的历史数据加入校正库中;
分别采用神经网络机器学习模型对所述校正库中每个历史数据的历史表象数据信息进行神经网络机器学习,并输出校正库中每个历史表象数据信息对应的历史结果预测值;
针对校正库中的每个历史数据,分别将对应的历史结果预测值与对应的历史结果真实值进行作差,得到对应的差值;
对校正库中所有历史数据的历史结果预测值与对应的历史结果真实值之间的差值进行平均化计算,得到校正值;
根据校正值对神经网络机器学习模型的预测结果进行校正优化。
本发明第二方面还提出一种基于特征工程IV值的隐私计算***,包括存储器和处理器,所述存储器中包括一种基于特征工程IV值的隐私计算方法程序,所述基于特征工程IV值的隐私计算方法程序被所述处理器执行时实现如下步骤:
预设特征工程IV值联合计算的参与方A和参与方B,以及多个样本数据,且参与方A持有各个样本数据的标签值,参与方B持有各个样本数据的特征值;
参与方A生成自己的公私钥对,并将公钥公开给参与方B;
参与方A利用自己的公钥加密各个样本数据的标签值生成各个样本数据的密文标签值,并将各个样本数据的密文标签值发送给参与方B;
针对某特征,参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值;
参与方B将各分组的密文IV值进行累加,得到该特征的最终密文IV值;
参与方B将该特征的最终密文IV值进行加扰,得到最终密文IV加扰值并发送给参与方A;
参与方A利用自己的私钥解密该特征的最终密文IV加扰值,得到该特征的明文IV加扰值并发送给参与方B;
参与方B对该特征的明文IV加扰值进行去扰后得到该特征的明文IV值。
本方案中,针对某特征,参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值,具体包括:
预设m个样本数据,各个样本的标签值记为Li∈{0,1},n个特征,Li=1表示正样本,Li=0表示负样本,全部正样本数量记为Gtotal,全部负样本数量记为Btotal,i为m个样本数据中某个样本数据的序号,且全部正样本数量记Gtotal和全部负样本数量记Btotal为参与方A和参与方B所共知;
对该特征的m个样本数据进行分为N组,每组的样本数量为ml,l为组的序号,且l∈[1,N],各组所包含的全部正样本数量记为Gl,全部负样本数量记为Bl,且满足
Figure BDA0003447857260000091
获取各组中的每个样本数据的特征值Fl,j,并采用参与方A的公钥对各组中的每个样本数据的特征值Fl,j进行加密得到密文特征值
Figure BDA0003447857260000092
其中,l表示第l组,j表示第l组的第j个样本数据,Fl,j表示第l组的第j个样本数据的特征值;
根据从参与方A接收到的各个样本数据的密文标签值,获取各组中的每个样本数据的标签值密文值
Figure BDA0003447857260000093
并结合密文特征值/>
Figure BDA0003447857260000094
计算出每组的全部正样本数量密文值
Figure BDA0003447857260000095
采用参与方A的公钥对每组的样本数量ml进行加密,得到每组的样本数量密文值
Figure BDA0003447857260000096
结合每组的样本数量密文值/>
Figure BDA0003447857260000097
和每组的全部正样本数量密文值/>
Figure BDA0003447857260000098
计算出每组的全部负样本数量密文值/>
Figure BDA0003447857260000099
计算每组的WOE值,记
Figure BDA00034478572600000910
并根据每组的WOE值计算每组的IV值,/>
Figure BDA00034478572600000911
Figure BDA00034478572600000912
Figure BDA00034478572600000913
则采用参与方A的公钥对Al得到密文值
Figure BDA00034478572600000914
Figure BDA00034478572600000915
进行变换得到/>
Figure BDA00034478572600000916
Figure BDA00034478572600000917
对/>
Figure BDA00034478572600000918
进行变换得到/>
Figure BDA00034478572600000919
Figure BDA00034478572600000920
记ln(1+gl)/ln10的密文值为/>
Figure BDA00034478572600000921
记ln(1+bl)/ln10的密文值为/>
Figure BDA00034478572600000922
计算出该特征的每组密文IV值为:
Figure BDA00034478572600000923
本方案中,参与方B将该特征的最终密文IV值进行加扰,得到最终密文IV加扰值并发送给参与方A,具体包括:
由参与方B产生随机数e,并采用参与方A的公钥对随机数e进行加密得到随机数e的密文值eenc,预设最终密文IV值为IVenc,则根据计算式计算出最终密文IV加扰值IVenc_err=IVenc+eenc
由参与方B将最终密文IV加扰值IVenc_err发送给参与方A。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于特征工程IV值的隐私计算方法程序,所述基于特征工程IV值的隐私计算方法程序被处理器执行时,实现如上述的一种基于特征工程IV值的隐私计算方法的步骤。
本发明提出的一种基于特征工程IV值的隐私计算方法、***和计算机可读存储介质,能够实现多方特征工程IV值的隐私计算,并基于特征工程IV值选定合适的训练样本,以进一步优化模型参数,提升机器学习算法的预测精度。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1示出了本发明一种基于特征工程IV值的隐私计算方法的流程图;
图2示出了本发明一种基于特征工程IV值的隐私计算***的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于特征工程IV值的隐私计算方法的流程图。
如图1所示,本发明第一方面提出一种基于特征工程IV值的隐私计算方法,所述方法包括:
S102,预设特征工程IV值联合计算的参与方A和参与方B,以及多个样本数据,且参与方A持有各个样本数据的标签值,参与方B持有各个样本数据的特征值;
S104,参与方A生成自己的公私钥对,并将公钥公开给参与方B;
S106,参与方A利用自己的公钥加密各个样本数据的标签值生成各个样本数据的密文标签值,并将各个样本数据的密文标签值发送给参与方B;
S108,针对某特征,参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值;
S110,参与方B将各分组的密文IV值进行累加,得到该特征的最终密文IV值;
S112,参与方B将该特征的最终密文IV值进行加扰,得到最终密文IV加扰值并发送给参与方A;
S114,参与方A利用自己的私钥解密该特征的最终密文IV加扰值,得到该特征的明文IV加扰值并发送给参与方B;
S116,参与方B对该特征的明文IV加扰值进行去扰后得到该特征的明文IV值。
需要说明的是,本发明采用公私钥加密技术计算特征IV值,可以确保IV值结果正确的情况下,各参与方的数据不会被泄漏给其他参与方,具体来说就是:标签值数据提供方(即参与方A)无法获知特征数据提供方(即参与方B)的特征值,同样,特征数据提供方(即参与方B)无法获知标签值提供方(即参与方A)的标签值数据。
可以实现对特征工程IV值的隐私计算效果。
可以理解,本发明是利用加密技术生成公钥和私钥,利用公钥对明文数据进行加密,针对密文进行计算得到密文结果,然后利用私钥对密文结果进行解密得到明文结果的一种隐私保护技术。本发明采用公私钥加密技术计算特征IV值,各个参与方之间的带宽开销远小于MPC技术,有效节省了计算成本,提升了隐私计算效率。
基于上述,本发明将公私钥加密技术应用于IV值计算,实现多方特征数据的IV值加密计算,在IV值计算结果正确的前提下,各参与方数据的隐私得到很好的保护,同时计算过程中的网络传输带宽要求小,进一步提高了计算效率,节省了计算成本。
根据本发明的实施例,针对某特征,参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值,具体包括:
预设m个样本数据,各个样本的标签值记为Li∈{0,1},n个特征,Li=1表示正样本,Li=0表示负样本,全部正样本数量记为Gtotal,全部负样本数量记为Btotal,i为m个样本数据中某个样本数据的序号,且全部正样本数量记Gtotal和全部负样本数量记Btotal为参与方A和参与方B所共知;
对该特征的m个样本数据进行分为N组,每组的样本数量为ml,l为组的序号,且l∈[1,N],各组所包含的全部正样本数量记为Gl,全部负样本数量记为Bl,且满足
Figure BDA0003447857260000131
获取各组中的每个样本数据的特征值Fl,j,并采用参与方A的公钥对各组中的每个样本数据的特征值Fl,j进行加密得到密文特征值
Figure BDA0003447857260000132
其中,l表示第l组,j表示第l组的第j个样本数据,Fl,j表示第k组的第j个样本数据的特征值;
根据从参与方A接收到的各个样本数据的密文标签值,获取各组中的每个样本数据的标签值密文值
Figure BDA0003447857260000133
并结合密文特征值/>
Figure BDA0003447857260000134
计算出每组的全部正样本数量密文值
Figure BDA0003447857260000135
采用参与方A的公钥对每组的样本数量ml进行加密,得到每组的样本数量密文值
Figure BDA0003447857260000136
结合每组的样本数量密文值/>
Figure BDA0003447857260000137
和每组的全部正样本数量密文值/>
Figure BDA0003447857260000138
计算出每组的全部负样本数量密文值/>
Figure BDA0003447857260000139
计算每组的WOE值,记
Figure BDA00034478572600001310
并根据每组的WOE值计算每组的IV值,/>
Figure BDA00034478572600001311
Figure BDA00034478572600001312
记/>
Figure BDA00034478572600001313
则采用参与方A的公钥对Al得到密文值/>
Figure BDA00034478572600001314
Figure BDA00034478572600001315
进行变换得到/>
Figure BDA00034478572600001316
Figure BDA00034478572600001317
对/>
Figure BDA00034478572600001318
进行变换得到/>
Figure BDA00034478572600001319
Figure BDA00034478572600001320
记ln(1+gl)/ln10的密文值为/>
Figure BDA00034478572600001321
记ln(1+bl)/ln10的密文值为/>
Figure BDA00034478572600001322
计算出该特征的每组密文IV值为:
Figure BDA00034478572600001323
优选的,在基于某个特征对多个样本数据进行分组过程中,采用等距分组方式,即按照特征值大小进行均匀分组。假设分组数量为N,则有N个组,分别记为Gl,每组的样本数量为
Figure BDA0003447857260000141
但不限于此。
在实际应用中,本发明对数的密文计算过程使用泰勒级数展开(取S=10):记
Figure BDA0003447857260000142
则对式
Figure BDA0003447857260000143
进行泰勒级数展开得到:/>
Figure BDA0003447857260000144
Figure BDA0003447857260000145
Figure BDA0003447857260000146
Figure BDA0003447857260000147
记ln(1+gl)/ln10的密文值为
Figure BDA0003447857260000148
记ln(1+bl)/ln10的密文值为/>
Figure BDA0003447857260000149
根据本发明的具体实施例,参与方B将各分组的密文IV值进行累加,得到该特征的最终密文IV值,具体包括:
参与方B按照公式
Figure BDA00034478572600001410
将各分组的密文IV值进行累加,得到该特征的最终密文IV值IVenc
根据本发明的实施例,参与方B将该特征的最终密文IV值进行加扰,得到最终密文IV加扰值并发送给参与方A,具体包括:
由参与方B产生随机数e,并采用参与方A的公钥对随机数e进行加密得到随机数e的密文值eenc,预设最终密文IV值为IVenc,则根据计算式计算出最终密文IV加扰值IVenc_err=IVenc+eenc
由参与方B将最终密文IV加扰值IVenc_err发送给参与方A。
根据本发明的具体实施例,由参与方B将最终密文IV加扰值IVenc_err发送给参与方A之后,所述方法还包括:
参与方A利用自己的私钥对最终密文IV加扰值IVenc_err进行解密得到明文加扰值IVdec=IV+e,将明文加扰值IVdec发送给参与方B;
参与方B对明文加扰值IVdec去扰后得到特征工程IV值IV=IVdec-e。
根据本发明的实施例,参与方B产生随机数e,具体包括:
预设随机数支持方C,随机源为K个;随机数支持方C持有K个字符串Rx,其中x表示第x个随机源号码,且x∈[1,K];且每个字符串包括按照顺序排列的p个字符,且p为偶数;
随机数支持方C按照随机的方式对每个字符串的p个字符进行两两配对,形成p/2个配对组,每个配对组包括前字符和后字符;
随机数支持方C将每个字符串的p/2个配对组的前字符发送给参与方B,并进行本地预存;
当参与方B需要产生随机数时,则向随机数支持方C发送指令信息;
所述随机数支持方C基于指令信息触发采用K个字符串Rx进行调制光子串,具体为:将每个字符串中的p/2个配对组的前字符分别作为调制光子串的各个调制基随机选取的第一选取源,并将每个字符串中的p/2个配对组的后字符作为调制光子串的调制初始信号的第二选取源;针对每个字符串,从第一选取源中,随机选取对应的前字符,作为调制基,并从第二选取源中选取与前字符相对应的后字符,作为调制初始信号,由各个调制基分别将对应的调制初始信号调制成光子的偏振态;基于相同的字符串,将所有光子的偏振态进行组合形成对应的光子串,将K个光子串与每个字符串对应调制基的随机选取方式一并通过量子通信发送给参与方B;
参与方B接收到K个光子串与每个字符串对应调制基的随机选取方式,基于每个光子串匹配出对应字符串标识,并结合每个字符串对应调制基的随机选取方式从每个字符串的p/2个配对组的前字符中找出对应的前字符作为测量基,并采用测量基对相应的光子串进行测量,得到测量结果;
将测量结果作为第x个随机源的输入,并经由混沌函数进行处理,输出第x个随机源的初始随机数;
经过多次混沌运动得到第x个随机源当前时刻的随机数,基于各个随机源当前时刻的随机数进行异或运算输出当前时刻的随机数e。
可以理解,本发明结合量子通信技术与多个随机源进行混沌运算,从而使生成随机数的随机性更高,进而有效防止被破解的风险。
需要说明的是,每个字符串均有对应的字符串标识,随机数支持方C在将K个光子串与每个字符串对应调制基的随机选取方式发送给参与方B时,还应该包括字符串标识,参与方B基于字符串标识确定出对应的字符串,进而根据相同字符串进行测量基选取。
可以理解,每个前字符均有对应的序号,随机数支持方C对调制基的随机选取方式可以是根据序号顺序进行挑选,也可以对选取后的前字符序号进行重新排序。无论是哪一种,则均需要将随机选取方式告知给参与方B,以便于其选取对应的测试基。
根据本发明的实施例,在参与方B对该特征的明文IV加扰值进行去扰后得到该特征的明文IV值之后,所述方法还包括:
预设有多个样本数据组,分别计算出该特征在多个样本数据组的IV值;
判断某个样本数据组的IV值是否大于第一预设阈值,如果是,则作为选中样本数据组,并提取入样本训练库中,预设样本训练库中有S个选中样本数据组;
分别采用样本训练库中各个选中样本数据组依次对预设的神经网络机器学习模型进行训练,分别得到对应的优化参数;
以样本训练库中的某个选中样本数据组为目标选中样本数据组,并将其对应的优化参数依次与其它选中样本数据组对应的优化参数进行逐一作差,得到S-1个差值;
判断差值的绝对值是否大于第二预设阈值,如果是,则判定目标选中样本数据组为疑似无效样本数据组一次,当目标选中样本数据组与剩余选中样本数据组全部完成作差比对后,记录目标选中样本数据组为疑似无效样本数据组的总次数;
判断总次数是否大于第三预设阈值,如果是,则判定目标选中样本数据组为无效样本数据组,否者判定为有效样本数据组;
将样本训练库中的每个选中样本数据组与剩余的选中样本数据组对应的优化参数进行作差比对,并筛选出所有的无效样本数据组;
将所有的无效样本数据组对应的优化参数剔除,并保留剩余所有的有效样本数据组对应的优化参数;
对所有的有效样本数据组对应的优化参数进行平均值计算,得到优化参数平均值,并将优化参数平均值置入神经网络机器学习模型中,以完成训练过程。
可以理解,本发明通过剔除无效的样本数据组,从而便于根据有效样本数据组计算出更加准确的优化参数,进而提升了神经网络机器学习模型的预测精度。
根据本发明的实施例,在将优化参数平均值置入神经网络机器学习模型中之后,所述方法还包括:
获取当前的表象数据信息,将表象数据信息输入至神经网络机器学习模型进行机器学习,得到结果预测值;
从历史数据库中获取多个历史数据,每个历史数据至少包括历史表象数据信息和对应的历史结果真实值;
针对每个历史数据的历史表象数据信息进行特征分析,分别得到每个历史数据的历史表象数据信息的第一特征量;
针对当前的表象数据信息进行特征分析,得到第二特征量;
对比每个历史数据的历史表象数据信息的第一特征量与当前的表象数据信息的第二特征量之间的差异率;
将差异率小于第四预设阈值的历史数据加入校正库中;
分别采用神经网络机器学习模型对所述校正库中每个历史数据的历史表象数据信息进行神经网络机器学习,并输出校正库中每个历史表象数据信息对应的历史结果预测值;
针对校正库中的每个历史数据,分别将对应的历史结果预测值与对应的历史结果真实值进行作差,得到对应的差值;
对校正库中所有历史数据的历史结果预测值与对应的历史结果真实值之间的差值进行平均化计算,得到校正值;
根据校正值对神经网络机器学习模型的预测结果进行校正优化。
可以理解,表象数据信息可以图像数据信息,相应的,预测结果可以图像识别结果。
根据本发明的具体实施例,根据校正值对神经网络机器学习模型的预测结果进行校正优化,具体包括:
将神经网络机器学习模型预测得出结果预测值与所述校正值进行相加,得到校正后的结果预测值。
可以理解,受限于神经网络机器学习自身的局限性,本发明进一步结合真实值与预测值之间的差值计算出校正值,并结合校正值进一步对神经网络机器学习模型进行优化,使神经网络机器学习模型输出更加准确的预测值。
根据本发明的具体实施例,在参与方A生成自己的公私钥对,并将公钥公开给参与方B之前,所述方法还包括:
所述参与方A与所述参与方B进行双向身份认证。
根据本发明的具体实施例,所述参与方A与所述参与方B进行双向身份认证,具体包括:
参与方A和参与方B约定第一字符串和第二字符串,第一字符串和第二字符串分别包括按照顺序排列的q个字符,且q为偶数;
参与方A和参与方B按照相同的随机方式分别对第一字符串和第二字符串的q个字符两两配对,形成q/2个配对组,第一字符串中的每个配对组包括第一前字符和第一后字符;第二字符串中的每个配对组包括第二前字符和第二后字符;
参与方A将第一字符串的q/2个配对组的第一前字符分别作为调制光子串的各个调制基的第三随机选取源,并将第一字符串中的q/2个配对组的第一后字符作为调制光子串的调制初始信号的第四随机选取源,从第三随机选取源中,随机选取对应的第一前字符,作为第一调制基,并从第四随机选取源中选取与选中的第一前字符相对应的第一后字符,作为第一调制初始信号,由各个第一调制基分别将对应的第一调制初始信号调制成光子的偏振态,将所有光子的偏振态进行组合形成第一光子串,将第一光子串与对应第一调制基的选取方式一并通过量子通信发送给参与方B;
参与方B接收到第一光子串与对应第一调制基的选取方式,基于对应第一调制基的选取方式从第一字符串的q/2个配对组中找出对应的第一前字符作为第一测量基,并采用第一测量基对第一光子串进行测量,得到第一测量结果,判断第一测量结果是否与找出的第一前字符相对应的第一后字符相同,如果相同,则实现参与方B对参与方A的认证;
参与方B将第二字符串的q/2个配对组的第二前字符分别作为调制光子串的各个调制基的第五随机选取源,并将第二字符串中的q/2个配对组的第二后字符作为调制光子串的调制初始信号的第六随机选取源,从第五随机选取源中,随机选取对应的第二前字符,作为第二调制基,并从第六随机选取源中选取与选中的第二前字符相对应的第二后字符,作为第二调制初始信号,由各个第二调制基分别将对应的第二调制初始信号调制成光子的偏振态,将所有光子的偏振态进行组合形成第二光子串,将第二光子串与对应第二调制基的选取方式一并通过量子通信发送给参与方A;
参与方A接收到第二光子串与对应第二调制基的选取方式,基于对应第二调制基的选取方式从第一字符串的q/2个配对组中找出对应的第二前字符作为第二测量基,并采用第二测量基对第二光子串进行测量,得到第二测量结果,判断第二测量结果是否与找出的第二前字符相对应的第二后字符相同,如果相同,则实现参与方A对参与方B的认证。
可以理解,在参与方A与参与方B进行通信时,可以进行双方身份认证,以确保双方身份的合法性。本发明采用量子计算技术实现双方身份认证,可以有效抗量子冲击,提升认证的权威性。
图2示出了本发明一种基于特征工程IV值的隐私计算***的框图。
如图2所示,本发明第二方面还提出一种基于特征工程IV值的隐私计算***2,包括存储器21和处理器22,所述存储器中包括一种基于特征工程IV值的隐私计算方法程序,所述基于特征工程IV值的隐私计算方法程序被所述处理器执行时实现如下步骤:
预设特征工程IV值联合计算的参与方A和参与方B,以及多个样本数据,且参与方A持有各个样本数据的标签值,参与方B持有各个样本数据的特征值;
参与方A生成自己的公私钥对,并将公钥公开给参与方B;
参与方A利用自己的公钥加密各个样本数据的标签值生成各个样本数据的密文标签值,并将各个样本数据的密文标签值发送给参与方B;
针对某特征,参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值;
参与方B将各分组的密文IV值进行累加,得到该特征的最终密文IV值;
参与方B将该特征的最终密文IV值进行加扰,得到最终密文IV加扰值并发送给参与方A;
参与方A利用自己的私钥解密该特征的最终密文IV加扰值,得到该特征的明文IV加扰值并发送给参与方B;
参与方B对该特征的明文IV加扰值进行去扰后得到该特征的明文IV值。
根据本发明的实施例,针对某特征,参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值,具体包括:
预设m个样本数据,各个样本的标签值记为Li∈{0,1},n个特征,Li=1表示正样本,Li=0表示负样本,全部正样本数量记为Gtotal,全部负样本数量记为Btotal,i为m个样本数据中某个样本数据的序号,且全部正样本数量记Gtotal和全部负样本数量记Btotal为参与方A和参与方B所共知;
对该特征的m个样本数据进行分为N组,每组的样本数量为ml,l为组的序号,且l∈[1,N],各组所包含的全部正样本数量记为Gl,全部负样本数量记为Bl,且满足
Figure BDA0003447857260000221
获取各组中的每个样本数据的特征值Fl,j,并采用参与方A的公钥对各组中的每个样本数据的特征值Fl,j进行加密得到密文特征值
Figure BDA0003447857260000222
其中,l表示第l组,j表示第l组的第j个样本数据,Fl,j表示第k组的第j个样本数据的特征值;
根据从参与方A接收到的各个样本数据的密文标签值,获取各组中的每个样本数据的标签值密文值
Figure BDA0003447857260000223
并结合密文特征值/>
Figure BDA0003447857260000224
计算出每组的全部正样本数量密文值
Figure BDA0003447857260000225
采用参与方A的公钥对每组的样本数量ml进行加密,得到每组的样本数量密文值
Figure BDA0003447857260000226
结合每组的样本数量密文值/>
Figure BDA0003447857260000227
和每组的全部正样本数量密文值/>
Figure BDA0003447857260000228
计算出每组的全部负样本数量密文值/>
Figure BDA0003447857260000229
计算每组的WOE值,记
Figure BDA00034478572600002210
并根据每组的WOE值计算每组的IV值,/>
Figure BDA00034478572600002211
Figure BDA00034478572600002212
记/>
Figure BDA00034478572600002213
则采用参与方A的公钥对Al得到密文值/>
Figure BDA00034478572600002214
Figure BDA00034478572600002215
进行变换得到/>
Figure BDA00034478572600002216
Figure BDA00034478572600002217
对/>
Figure BDA00034478572600002218
进行变换得到/>
Figure BDA00034478572600002219
Figure BDA0003447857260000231
记ln(1+gl)/ln10的密文值为/>
Figure BDA0003447857260000232
记ln(1+bl)/ln10的密文值为/>
Figure BDA0003447857260000233
计算出该特征的每组密文IV值为:
Figure BDA0003447857260000234
根据本发明的实施例,参与方B将该特征的最终密文IV值进行加扰,得到最终密文IV加扰值并发送给参与方A,具体包括:
由参与方B产生随机数e,并采用参与方A的公钥对随机数e进行加密得到随机数e的密文值eenc,预设最终密文IV值为IVenc,则根据计算式计算出最终密文IV加扰值IVenc_err=IVenc+eenc
由参与方B将最终密文IV加扰值IVenc_err发送给参与方A。
本发明第三方面还提出一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于特征工程IV值的隐私计算方法程序,所述基于特征工程IV值的隐私计算方法程序被处理器执行时,实现如上述的一种基于特征工程IV值的隐私计算方法的步骤。
本发明提出的一种基于特征工程IV值的隐私计算方法、***和计算机可读存储介质,能够实现多方特征工程IV值的隐私计算,并基于特征工程IV值选定合适的训练样本,以进一步优化模型参数,提升机器学习算法的预测精度。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种基于特征工程IV值的隐私计算方法,其特征在于,所述方法包括:
预设特征工程IV值联合计算的参与方A和参与方B,以及多个样本数据,且参与方A持有各个样本数据的标签值,参与方B持有各个样本数据的特征值;
参与方A生成自己的公私钥对,并将公钥公开给参与方B;
参与方A利用自己的公钥加密各个样本数据的标签值生成各个样本数据的密文标签值,并将各个样本数据的密文标签值发送给参与方B;
针对某特征,参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值;
参与方B将各分组的密文IV值进行累加,得到该特征的最终密文IV值;
参与方B将该特征的最终密文IV值进行加扰,得到最终密文IV加扰值并发送给参与方A;
参与方A利用自己的私钥解密该特征的最终密文IV加扰值,得到该特征的明文IV加扰值并发送给参与方B;
参与方B对该特征的明文IV加扰值进行去扰后得到该特征的明文IV值;
预设有多个样本数据组,分别计算出该特征在多个样本数据组的IV值;
判断某个样本数据组的IV值是否大于第一预设阈值,如果是,则作为选中样本数据组,并提取入样本训练库中,预设样本训练库中有S个选中样本数据组;
分别采用样本训练库中各个选中样本数据组依次对预设的神经网络机器学习模型进行训练,分别得到对应的优化参数;
以样本训练库中的某个选中样本数据组为目标选中样本数据组,并将其对应的优化参数依次与其它选中样本数据组对应的优化参数进行逐一作差,得到S-1个差值;
判断差值的绝对值是否大于第二预设阈值,如果是,则判定目标选中样本数据组为疑似无效样本数据组一次,当目标选中样本数据组与剩余选中样本数据组全部完成作差比对后,记录目标选中样本数据组为疑似无效样本数据组的总次数;
判断总次数是否大于第三预设阈值,如果是,则判定目标选中样本数据组为无效样本数据组,否者判定为有效样本数据组;
将样本训练库中的每个选中样本数据组与剩余的选中样本数据组对应的优化参数进行作差比对,并筛选出所有的无效样本数据组;
将所有的无效样本数据组对应的优化参数剔除,并保留剩余所有的有效样本数据组对应的优化参数;
对所有的有效样本数据组对应的优化参数进行平均值计算,得到优化参数平均值,并将优化参数平均值置入神经网络机器学习模型中,以完成训练过程。
2.根据权利要求1所述的一种基于特征工程IV值的隐私计算方法,其特征在于,针对某特征,参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值,具体包括:
预设m个样本数据,各个样本的标签值记为Li∈{0,1},n个特征,Li=1表示正样本,Li=0表示负样本,全部正样本数量记为Gtotal,全部负样本数量记为Btotal,i为m个样本数据中某个样本数据的序号,且全部正样本数量记Gtotal和全部负样本数量记Btotal为参与方A和参与方B所共知;
对该特征的m个样本数据进行分为N组,每组的样本数量为ml,l为组的序号,且l∈[1,N],各组所包含的全部正样本数量记为Gl,全部负样本数量记为Bl,且满足
Figure FDA0004240097830000031
获取各组中的每个样本数据的特征值Fl,j,并采用参与方A的公钥对各组中的每个样本数据的特征值Fl,j进行加密得到密文特征值
Figure FDA0004240097830000032
其中,l表示第l组,j表示第l组的第j个样本数据,Fl,j表示第l组的第j个样本数据的特征值;
根据从参与方A接收到的各个样本数据的密文标签值,获取各组中的每个样本数据的标签值密文值
Figure FDA0004240097830000033
并结合密文特征值/>
Figure FDA0004240097830000034
计算出每组的全部正样本数量密文值
Figure FDA0004240097830000035
采用参与方A的公钥对每组的样本数量ml进行加密,得到每组的样本数量密文值
Figure FDA0004240097830000036
结合每组的样本数量密文值/>
Figure FDA0004240097830000037
和每组的全部正样本数量密文值/>
Figure FDA0004240097830000038
计算出每组的全部负样本数量密文值/>
Figure FDA0004240097830000039
计算每组的WOE值,记
Figure FDA00042400978300000310
并根据每组的WOE值计算每组的IV值,
Figure FDA00042400978300000312
记/>
Figure FDA00042400978300000313
则采用参与方A的公钥对Al得到密文值/>
Figure FDA00042400978300000314
Figure FDA00042400978300000315
进行变换得到/>
Figure FDA00042400978300000316
Figure FDA00042400978300000317
对/>
Figure FDA00042400978300000318
进行变换得到/>
Figure FDA00042400978300000319
Figure FDA00042400978300000320
记ln(1+gl)/ln10的密文值为/>
Figure FDA00042400978300000321
记ln(1+bl)/ln10的密文值为/>
Figure FDA00042400978300000322
计算出该特征的每组密文IV值为:
Figure FDA0004240097830000041
3.根据权利要求1所述的一种基于特征工程IV值的隐私计算方法,其特征在于,参与方B将该特征的最终密文IV值进行加扰,得到最终密文IV加扰值并发送给参与方A,具体包括:
由参与方B产生随机数e,并采用参与方A的公钥对随机数e进行加密得到随机数e的密文值eenc,预设最终密文IV值为IVenc,则根据计算式计算出最终密文IV加扰值IVenc_err=IVenc+eenc
由参与方B将最终密文IV加扰值IVenc_err发送给参与方A。
4.根据权利要求3所述的一种基于特征工程IV值的隐私计算方法,其特征在于,参与方B产生随机数e,具体包括:
预设随机数支持方C,随机源为K个;随机数支持方C持有K个字符串Rx,其中x表示第x个随机源号码,且x∈[1,K];且每个字符串包括按照顺序排列的p个字符,且p为偶数;
随机数支持方C按照随机的方式对每个字符串的p个字符进行两两配对,形成p/2个配对组,每个配对组包括前字符和后字符;
随机数支持方C将每个字符串的p/2个配对组的前字符发送给参与方B,并进行本地预存;
当参与方B需要产生随机数时,则向随机数支持方C发送指令信息;
所述随机数支持方C基于指令信息触发采用K个字符串Rx进行调制光子串,具体为:将每个字符串中的p/2个配对组的前字符分别作为调制光子串的各个调制基随机选取的第一选取源,并将每个字符串中的p/2个配对组的后字符作为调制光子串的调制初始信号的第二选取源;针对每个字符串,从第一选取源中,随机选取对应的前字符,作为调制基,并从第二选取源中选取与前字符相对应的后字符,作为调制初始信号,由各个调制基分别将对应的调制初始信号调制成光子的偏振态;基于相同的字符串,将所有光子的偏振态进行组合形成对应的光子串,将K个光子串与每个字符串对应调制基的随机选取方式一并通过量子通信发送给参与方B;
参与方B接收到K个光子串与每个字符串对应调制基的随机选取方式,基于每个光子串匹配出对应字符串标识,并结合每个字符串对应调制基的随机选取方式从每个字符串的p/2个配对组的前字符中找出对应的前字符作为测量基,并采用测量基对相应的光子串进行测量,得到测量结果;
将测量结果作为第x个随机源的输入,并经由混沌函数进行处理,输出第x个随机源的初始随机数;
经过多次混沌运动得到第x个随机源当前时刻的随机数,基于各个随机源当前时刻的随机数进行异或运算输出当前时刻的随机数e。
5.根据权利要求1所述的一种基于特征工程IV值的隐私计算方法,其特征在于,在将优化参数平均值置入神经网络机器学习模型中之后,所述方法还包括:
获取当前的表象数据信息,将表象数据信息输入至神经网络机器学习模型进行机器学习,得到结果预测值;
从历史数据库中获取多个历史数据,每个历史数据至少包括历史表象数据信息和对应的历史结果真实值;
针对每个历史数据的历史表象数据信息进行特征分析,分别得到每个历史数据的历史表象数据信息的第一特征量;
针对当前的表象数据信息进行特征分析,得到第二特征量;
对比每个历史数据的历史表象数据信息的第一特征量与当前的表象数据信息的第二特征量之间的差异率;
将差异率小于第四预设阈值的历史数据加入校正库中;
分别采用神经网络机器学习模型对所述校正库中每个历史数据的历史表象数据信息进行神经网络机器学习,并输出校正库中每个历史表象数据信息对应的历史结果预测值;
针对校正库中的每个历史数据,分别将对应的历史结果预测值与对应的历史结果真实值进行作差,得到对应的差值;
对校正库中所有历史数据的历史结果预测值与对应的历史结果真实值之间的差值进行平均化计算,得到校正值;
根据校正值对神经网络机器学习模型的预测结果进行校正优化。
6.一种基于特征工程IV值的隐私计算***,其特征在于,包括存储器和处理器,所述存储器中包括一种基于特征工程IV值的隐私计算方法程序,所述基于特征工程IV值的隐私计算方法程序被所述处理器执行时实现如下步骤:
预设特征工程IV值联合计算的参与方A和参与方B,以及多个样本数据,且参与方A持有各个样本数据的标签值,参与方B持有各个样本数据的特征值;
参与方A生成自己的公私钥对,并将公钥公开给参与方B;
参与方A利用自己的公钥加密各个样本数据的标签值生成各个样本数据的密文标签值,并将各个样本数据的密文标签值发送给参与方B;
针对某特征,参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值;
参与方B将各分组的密文IV值进行累加,得到该特征的最终密文IV值;
参与方B将该特征的最终密文IV值进行加扰,得到最终密文IV加扰值并发送给参与方A;
参与方A利用自己的私钥解密该特征的最终密文IV加扰值,得到该特征的明文IV加扰值并发送给参与方B;
参与方B对该特征的明文IV加扰值进行去扰后得到该特征的明文IV值;
预设有多个样本数据组,分别计算出该特征在多个样本数据组的IV值;
判断某个样本数据组的IV值是否大于第一预设阈值,如果是,则作为选中样本数据组,并提取入样本训练库中,预设样本训练库中有S个选中样本数据组;
分别采用样本训练库中各个选中样本数据组依次对预设的神经网络机器学习模型进行训练,分别得到对应的优化参数;
以样本训练库中的某个选中样本数据组为目标选中样本数据组,并将其对应的优化参数依次与其它选中样本数据组对应的优化参数进行逐一作差,得到S-1个差值;
判断差值的绝对值是否大于第二预设阈值,如果是,则判定目标选中样本数据组为疑似无效样本数据组一次,当目标选中样本数据组与剩余选中样本数据组全部完成作差比对后,记录目标选中样本数据组为疑似无效样本数据组的总次数;
判断总次数是否大于第三预设阈值,如果是,则判定目标选中样本数据组为无效样本数据组,否者判定为有效样本数据组;
将样本训练库中的每个选中样本数据组与剩余的选中样本数据组对应的优化参数进行作差比对,并筛选出所有的无效样本数据组;
将所有的无效样本数据组对应的优化参数剔除,并保留剩余所有的有效样本数据组对应的优化参数;
对所有的有效样本数据组对应的优化参数进行平均值计算,得到优化参数平均值,并将优化参数平均值置入神经网络机器学习模型中,以完成训练过程。
7.根据权利要求6所述的一种基于特征工程IV值的隐私计算***,其特征在于,针对某特征,参与方B基于特征值对多个样本数据进行分组,并结合各个样本数据的密文标签值以及参与方A的公钥计算每个分组的密文IV值,具体包括:
预设m个样本数据,各个样本的标签值记为Li∈{0,1},n个特征,Li=1表示正样本,Li=0表示负样本,全部正样本数量记为Gtotal,全部负样本数量记为Btotal,i为m个样本数据中某个样本数据的序号,且全部正样本数量记Gtotal和全部负样本数量记Btotal为参与方A和参与方B所共知;
对该特征的m个样本数据进行分为N组,每组的样本数量为ml,l为组的序号,且l∈[1,N],各组所包含的全部正样本数量记为Gl,全部负样本数量记为Bl,且满足
Figure FDA0004240097830000081
获取各组中的每个样本数据的特征值Fl,j,并采用参与方A的公钥对各组中的每个样本数据的特征值Fl,j进行加密得到密文特征值
Figure FDA0004240097830000091
其中,l表示第l组,j表示第l组的第j个样本数据,Fl,j表示第l组的第j个样本数据的特征值;
根据从参与方A接收到的各个样本数据的密文标签值,获取各组中的每个样本数据的标签值密文值
Figure FDA0004240097830000092
并结合密文特征值/>
Figure FDA0004240097830000093
计算出每组的全部正样本数量密文值
Figure FDA0004240097830000094
采用参与方A的公钥对每组的样本数量ml进行加密,得到每组的样本数量密文值
Figure FDA0004240097830000095
结合每组的样本数量密文值/>
Figure FDA0004240097830000096
和每组的全部正样本数量密文值/>
Figure FDA0004240097830000097
计算出每组的全部负样本数量密文值/>
Figure FDA0004240097830000098
计算每组的WOE值,记
Figure FDA0004240097830000099
并根据每组的WOE值计算每组的IV值,
Figure FDA00042400978300000910
Figure FDA00042400978300000911
记/>
Figure FDA00042400978300000912
则采用参与方A的公钥对Al得到密文值/>
Figure FDA00042400978300000913
Figure FDA00042400978300000914
进行变换得到/>
Figure FDA00042400978300000915
Figure FDA00042400978300000916
Figure FDA00042400978300000917
进行变换得到/>
Figure FDA00042400978300000918
Figure FDA00042400978300000919
记ln(1+gl)/ln10的密文值为/>
Figure FDA00042400978300000920
记ln(1+bl)/ln10的密文值为/>
Figure FDA00042400978300000921
计算出该特征的每组密文IV值为:
Figure FDA00042400978300000922
8.根据权利要求6所述的一种基于特征工程IV值的隐私计算***,其特征在于,参与方B将该特征的最终密文IV值进行加扰,得到最终密文IV加扰值并发送给参与方A,具体包括:
由参与方B产生随机数e,并采用参与方A的公钥对随机数e进行加密得到随机数e的密文值eenc,预设最终密文IV值为IVenc,则根据计算式计算出最终密文IV加扰值IVenc_err=IVenc+eenc
由参与方B将最终密文IV加扰值IVenc_err发送给参与方A。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括一种基于特征工程IV值的隐私计算方法程序,所述基于特征工程IV值的隐私计算方法程序被处理器执行时,实现如权利要求1至5中任一项所述的一种基于特征工程IV值的隐私计算方法的步骤。
CN202111654397.2A 2021-12-30 2021-12-30 基于特征工程iv值的隐私计算方法、***和可读存储介质 Active CN114398671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111654397.2A CN114398671B (zh) 2021-12-30 2021-12-30 基于特征工程iv值的隐私计算方法、***和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111654397.2A CN114398671B (zh) 2021-12-30 2021-12-30 基于特征工程iv值的隐私计算方法、***和可读存储介质

Publications (2)

Publication Number Publication Date
CN114398671A CN114398671A (zh) 2022-04-26
CN114398671B true CN114398671B (zh) 2023-07-11

Family

ID=81229533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111654397.2A Active CN114398671B (zh) 2021-12-30 2021-12-30 基于特征工程iv值的隐私计算方法、***和可读存储介质

Country Status (1)

Country Link
CN (1) CN114398671B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115344894A (zh) * 2022-10-18 2022-11-15 翼方健数(北京)信息科技有限公司 一种特征工程iv值隐私计算方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968886A (zh) * 2019-12-20 2020-04-07 支付宝(杭州)信息技术有限公司 机器学习模型的训练样本的筛选方法及其***
CN111563267A (zh) * 2020-05-08 2020-08-21 京东数字科技控股有限公司 用于联邦特征工程数据处理的方法和装置
CN113591133A (zh) * 2021-09-27 2021-11-02 支付宝(杭州)信息技术有限公司 基于差分隐私进行特征处理的方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032878B (zh) * 2019-03-04 2021-11-02 创新先进技术有限公司 一种安全的特征工程方法和装置
US11139961B2 (en) * 2019-05-07 2021-10-05 International Business Machines Corporation Private and federated learning
CN110472424A (zh) * 2019-07-16 2019-11-19 西安理工大学 基于强度传输方程和光子计数的多图像加密、认证的方法
US20210143987A1 (en) * 2019-11-13 2021-05-13 International Business Machines Corporation Privacy-preserving federated learning
CN110990857B (zh) * 2019-12-11 2021-04-06 支付宝(杭州)信息技术有限公司 保护隐私安全的多方联合进行特征评估的方法及装置
CN112668046A (zh) * 2020-12-24 2021-04-16 深圳前海微众银行股份有限公司 特征交叉方法、设备、计算机可读存储介质及程序产品
CN113688354B (zh) * 2021-08-27 2023-06-09 华东师范大学 一种基于安全多方计算的卡方分箱方法
CN113704799A (zh) * 2021-09-08 2021-11-26 深圳前海微众银行股份有限公司 分箱数据的处理方法、装置、设备、存储介质及程序产品
CN113704800A (zh) * 2021-09-08 2021-11-26 深圳前海微众银行股份有限公司 基于混淆箱的数据分箱处理方法、装置、设备及存储介质
CN113807736A (zh) * 2021-09-29 2021-12-17 河南星环众志信息科技有限公司 一种数据质量评估方法、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968886A (zh) * 2019-12-20 2020-04-07 支付宝(杭州)信息技术有限公司 机器学习模型的训练样本的筛选方法及其***
CN111563267A (zh) * 2020-05-08 2020-08-21 京东数字科技控股有限公司 用于联邦特征工程数据处理的方法和装置
CN113591133A (zh) * 2021-09-27 2021-11-02 支付宝(杭州)信息技术有限公司 基于差分隐私进行特征处理的方法及装置

Also Published As

Publication number Publication date
CN114398671A (zh) 2022-04-26

Similar Documents

Publication Publication Date Title
US20230106151A1 (en) Multi-party threshold authenticated encryption
KR101936033B1 (ko) 시계열 데이터의 프라이버시-보존 집계
CN107145791B (zh) 一种具有隐私保护的K-means聚类方法及***
US6038315A (en) Method and system for normalizing biometric variations to authenticate users from a public database and that ensures individual biometric data privacy
US11233662B2 (en) Keyless encrypting schemes using physical unclonable function devices
Yu et al. Privacy-preserving data aggregation computing in cyber-physical social systems
CN111162894B (zh) 具有隐私保护的外包云存储医疗数据聚合的统计分析方法
CN111931249B (zh) 支持传输容错机制的医疗密态数据统计分析方法
CN108337092B (zh) 用于在通信网络中执行集体认证的方法和***
CN116318617B (zh) 基于rfid和区块链的医疗救援物资慈善捐助方法
EP4226568A1 (en) Updatable private set intersection
CN111581648B (zh) 在不规则用户中保留隐私的联邦学习的方法
CN110855667A (zh) 一种区块链加密方法、装置及***
CN114398671B (zh) 基于特征工程iv值的隐私计算方法、***和可读存储介质
CN113364595B (zh) 电网隐私数据签名聚合方法、装置和计算机设备
Bhat et al. Fuzzy extractor and chaos enhanced elliptic curve cryptography for image encryption and authentication
Slimane et al. A novel image encryption scheme using chaos, hyper-chaos systems and the secure Hash algorithm SHA-1
CN117134945A (zh) 数据处理方法、***、装置、计算机设备及存储介质
CN111277406A (zh) 一种基于区块链的安全两方向量优势比较方法
CN108462946B (zh) 一种基于无线传感器网络的多维数据查询方法和***
CN112491840B (zh) 信息修改方法、装置、计算机设备及存储介质
Bose et al. A Fully Decentralized Homomorphic Federated Learning Framework
CN114362917A (zh) 移动群智感知中安全可验证的数据真值发现方法
CN114567422A (zh) 一种基于隐私保护的公开验证真值确定方法
Chander The state-of-the-art cryptography techniques for secure data transmission

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant