CN115204320B - 朴素贝叶斯模型训练方法、装置、设备及计算机存储介质 - Google Patents
朴素贝叶斯模型训练方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN115204320B CN115204320B CN202211119397.7A CN202211119397A CN115204320B CN 115204320 B CN115204320 B CN 115204320B CN 202211119397 A CN202211119397 A CN 202211119397A CN 115204320 B CN115204320 B CN 115204320B
- Authority
- CN
- China
- Prior art keywords
- target
- sample
- label
- vectors
- participant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 268
- 238000000034 method Methods 0.000 title claims abstract description 80
- 239000013598 vector Substances 0.000 claims abstract description 299
- 239000011159 matrix material Substances 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012512 characterization method Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims 7
- 230000000694 effects Effects 0.000 abstract description 12
- 238000004891 communication Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/008—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种朴素贝叶斯模型训练方法、装置、设备及计算机存储介质,涉及大数据技术领域。该方法包括:向第二参与方发送与M类样本标签一一对应的M个标签向量;接收第二参与方发送的目标特征对应的M个目标向量;根据M个目标向量,确定N个训练样本对应的条件概率分布表,其中,条件概率分布表用于训练朴素贝叶斯模型。根据本申请实施例,能够在保障朴素贝叶斯模型训练效果的同时,充分实现对训练样本数据的隐私保护。
Description
技术领域
本申请属于大数据技术领域,尤其涉及一种朴素贝叶斯模型训练方法、装置、设备及计算机存储介质。
背景技术
朴素贝叶斯(naïve Bayes)是基于贝叶斯定理和特征条件独立假设的分类模型算法,其在大数据分类处理中应用极为广泛。目前,在朴素贝叶斯模型的纵向联邦建模场景中,客户端拥有样本标签和部分特征,服务端拥有部分特征,客户端和服务端之间通过样本标签或特征信息的明文交互传输,以确定对应的条件概率分布表,从而实现在纵向联邦场景下的朴素贝叶斯模型训练及预测。
然而,在上述纵向联邦朴素贝叶斯模型训练方案中,当客户端与服务端之间进行明文样本标签或特征交互时,往往无法保障样本数据的安全性,存在数据隐私泄露的问题。
发明内容
本申请实施例提供一种朴素贝叶斯模型训练方法、装置、设备及计算机存储介质,能够在保障朴素贝叶斯模型训练效果的同时,充分实现对训练样本数据的隐私保护。
第一方面,本申请实施例提供一种朴素贝叶斯模型训练方法,应用于第一参与方,该朴素贝叶斯模型训练方法包括:
向第二参与方发送与M类样本标签一一对应的M个标签向量;其中,每个标签向量分别包括与N个训练样本一一对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数,N为正整数,M为正整数;
接收第二参与方发送的目标特征对应的M个目标向量;其中,目标特征为第二参与方存储的训练样本的特征,目标特征对应K种取值;每个目标向量包括与K种取值一一对应的K个第二元素,第k个第二元素表征:目标特征的第k种取值对应的训练样本数量的加密值;M个目标向量与M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数,K为正整数;
根据M个目标向量,确定N个训练样本对应的条件概率分布表,其中,条件概率分布表用于训练朴素贝叶斯模型。
在一些可能的实现方式中,向第二参与方发送与M类样本标签一一对应的M个标签向量之前,该朴素贝叶斯模型训练方法还包括:
基于M类样本标签中的每一类样本标签,分别对N个训练样本的样本标签进行独热编码,生成与M类样本标签一一对应的M个编码向量;
对M个编码向量中的元素分别进行同态加密,得到M个标签向量。
在一些可能的实现方式中,条件概率分布表包括:与目标特征的K种取值一一对应的M类样本标签的概率;该朴素贝叶斯模型训练方法还包括:
在朴素贝叶斯模型训练结束后,向第二参与方发送预测样本的样本标识;
接收第二参与方发送的预测样本对应的特征信息,特征信息包括:目标特征的特征标识,以及目标标识,目标标识用于标识预测样本的目标特征的实际取值;
基于特征信息,通过条件概率分布表预测预测样本的样本标签。
第二方面,本申请实施例提供一种朴素贝叶斯模型训练方法,应用于第二参与方,第二参与方存储有N个训练样本对应的目标特征,目标特征对应K种取值;N、K均为正整数;该朴素贝叶斯模型训练方法包括:
接收第一参与方发送的M个标签向量;其中,M个标签向量与M类样本标签一一对应,每个标签向量分别包括与N个训练样本对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数;
向第一参与方发送目标特征对应的M个目标向量,以使第一参与方基于M个目标向量,对朴素贝叶斯模型进行训练;其中,每个目标向量包括与K种取值一一对应的K个第二元素,第k个第二元素表征:目标特征的第k种取值对应的训练样本数量的加密值;M个目标向量与M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数。
在一些可能的实现方式中,在接收第一参与方发送的M个标签向量之后,在向第一参与方发送目标特征对应的M个目标向量之前,该朴素贝叶斯模型训练方法还包括:
生成与N个训练样本对应的目标特征的特征矩阵;其中,特征矩阵为K×N矩阵,特征矩阵的第k行第n列的第三元素表征:第n个训练样本对应的目标特征的第k种取值的编码值;
将M个标签向量分别与特征矩阵进行内积运算,得到M个目标向量。
在一些可能的实现方式中,该朴素贝叶斯模型训练方法还包括:
在朴素贝叶斯模型训练结束后,接收第一参与方发送的预测样本的样本标识;
基于预测样本的样本标识,向第一参与方发送预测样本对应的特征信息,以使第一参与方基于特征信息对预测样本的样本标签进行预测;
其中,特征信息包括:目标特征对应的特征标识和目标标识,目标标识为目标取值的标识,目标取值为预测样本对应的目标特征的实际取值。
第三方面,本申请实施例提供了一种朴素贝叶斯模型训练装置,应用于第一参与方,该朴素贝叶斯模型训练装置包括:
第一发送模块,用于向第二参与方发送与M类样本标签一一对应的M个标签向量;其中,每个标签向量分别包括与N个训练样本一一对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数,N为正整数,M为正整数;
第一接收模块,用于接收第二参与方发送的目标特征对应的M个目标向量;其中,目标特征为第二参与方存储的训练样本的特征,目标特征对应K种取值;每个目标向量包括与K种取值一一对应的K个第二元素,第k个第二元素表征:目标特征的第k种取值对应的训练样本数量的加密值;M个目标向量与M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数,K为正整数;
第一确定模块,用于根据M个目标向量,确定N个训练样本对应的条件概率分布表,其中,条件概率分布表用于训练朴素贝叶斯模型。
第四方面,本申请实施例提供了一种朴素贝叶斯模型训练装置,应用于第二参与方,第二参与方存储有N个训练样本对应的目标特征,目标特征对应K种取值;N、K均为正整数;该朴素贝叶斯模型训练装置包括:
第二接收模块,用于接收第一参与方发送的M个标签向量;其中,M个标签向量与M类样本标签一一对应,每个标签向量分别包括与N个训练样本对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数;
第二发送模块,用于向第一参与方发送目标特征对应的M个目标向量,以使第一参与方基于M个目标向量,对朴素贝叶斯模型进行训练;其中,每个目标向量包括与K种取值一一对应的K个第二元素,第k个第二元素表征:目标特征的第k种取值对应的训练样本数量的加密值;M个目标向量与M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数。
第五方面,本申请实施例提供了一种朴素贝叶斯模型训练设备,该朴素贝叶斯模型训练设备包括:
处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如上述本申请实施例中任意一项提供的朴素贝叶斯模型训练方法。
第六方面,本申请实施例提供了一种计算机存储介质,该计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上述本申请实施例中任意一项提供的朴素贝叶斯模型训练方法。
第七方面,本申请实施例提供了一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如上述本申请实施例中任意一项提供的朴素贝叶斯模型训练方法。
本申请实施例的朴素贝叶斯模型训练方法、装置、设备及计算机存储介质,能够通过向第二参与方发送与M类样本标签一一对应的M个标签向量,其标签向量中的元素为相应信息的加密值,并接收第二参与方发送的目标特征对应的M个目标向量,其目标向量中的元素为相应信息的加密值,如此,来实现对朴素贝叶斯模型训练中的条件概率分布表的确定。本申请实施例的一种朴素贝叶斯模型训练方法、装置、设备及计算机存储介质,在对类别型变量的朴素贝叶斯模型进行训练时,相较于现有技术中的明文信息传递,选择传输不包含具体样本标签、样本具体特征含义以及取值的加密向量信息,能够在保障朴素贝叶斯模型训练效果的同时,充分实现对训练样本数据的隐私保护。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的应用于第一参与方的朴素贝叶斯模型训练方法的流程示意图;
图2是本申请一实施例提供的应用于第二参与方的朴素贝叶斯模型训练方法的流程示意图;
图3是本申请一实施例提供的应用于第一参与方的朴素贝叶斯模型训练装置的结构示意图;
图4是本申请一实施例提供的应用于第二参与方的朴素贝叶斯模型训练装置的结构示意图;
图5是本申请一实施例提供的朴素贝叶斯模型训练设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如背景技术部分所述,在朴素贝叶斯模型的纵向联邦建模中,客户端通常拥有多个训练样本的样本标签和部分特征,服务端拥有多个训练样本的另一部分特征。
在朴素贝叶斯模型的训练过程中,客户端和服务端之间需要进行样本标签或特征信息的交互传输,以使客户端确定存储在服务端上的另一部分特征的不同特征取值对应的训练样本数量,从而确定出多个训练样本对应的不同特征下样本标签的条件概率分布表,以实现在纵向联邦场景下的朴素贝叶斯模型训练。
然而,在上述纵向联邦朴素贝叶斯模型训练方案中,当客户端与服务端之间进行明文样本标签或特征交互时,往往无法保障样本数据的安全性,存在数据隐私泄露的问题。
为了解决现有技术问题,本申请实施例提供了一种朴素贝叶斯模型训练方法、装置、设备、存储介质和计算机程序产品。应注意,本申请提供的实施例并不用来限制本申请公开的范围。
下面首先对本申请实施例所提供的朴素贝叶斯模型训练方法进行介绍。
图1示出了本申请一实施例提供的应用于第一参与方的朴素贝叶斯模型训练方法的流程示意图。该朴素贝叶斯模型训练方法应用于第一参与方,第一参与方可以为电子设备,具体可以对应朴素贝叶斯模型训练的纵向联邦建模场景中的客户端等,本申请对此不作具体限制。
如图1所示,该朴素贝叶斯模型训练方法包括以下步骤:
S110,向第二参与方发送与M类样本标签一一对应的M个标签向量;其中,每个标签向量分别包括与N个训练样本一一对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数,N为正整数,M为正整数;
S120,接收第二参与方发送的目标特征对应的M个目标向量;其中,目标特征为第二参与方存储的训练样本的特征,目标特征对应K种取值;每个目标向量包括与K种取值一一对应的K个第二元素,第k个第二元素表征:目标特征的第k种取值对应的训练样本数量的加密值;M个目标向量与M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数,K为正整数;
S130,根据M个目标向量,确定N个训练样本对应的条件概率分布表,其中,条件概率分布表用于训练朴素贝叶斯模型。
本申请实施例的朴素贝叶斯模型训练方法,应用于第一参与方,能够通过向第二参与方发送与M类样本标签一一对应的M个标签向量,其标签向量中的元素为相应信息的加密值,并接收第二参与方发送的目标特征对应的M个目标向量,其目标向量中的元素为相应信息的加密值,如此,来实现对朴素贝叶斯模型训练中的条件概率分布表的确定。本申请实施例的一种朴素贝叶斯模型训练方法,在对类别型变量的朴素贝叶斯模型进行训练时,相较于现有技术中的明文信息传递,选择传输不包含具体样本标签、样本具体特征含义以及取值的加密向量信息,能够在保障朴素贝叶斯模型训练效果的同时,充分实现对训练样本数据的隐私保护。
在S110中,具体实现时,第一参与方可以基于预先设置的通信信道及通信协议,向第二参与方发送与M类样本标签一一对应的M个标签向量,考虑到现有通信机制的多样性,因此本申请在此对上述M个标签向量的发送方式不做具体限制。
上述M个标签向量中每个标签向量分别包括与N个训练样本一一对应的N个第一元素,该第一元素具体可以为数值、字符串或者编码等形式,本申请对此并不做严格限制。
需要说明,上述M个标签向量与M类样本标签一一对应,可以理解为:对于每一类样本标签,都有一个与其样本标签对应的标签向量,上述M个标签向量可以基于M类样本标签得到。
具体地,对于第m类样本标签对应的标签向量,该标签向量中的第n个第一元素可以表征:基于第m类样本标签确定的第n个训练样本对应的样本标签的加密值。n为小于或等于N的正整数,m为小于或等于M的正整数,N为正整数,M为正整数。
示例性地,M为2,即,样本标签可以包括两类,第一类的样本标签假设为“1”,第二类的样本标签假设为“-1”。
上述标签向量的个数为2,2个标签向量分别与“1”“-1”2类样本标签一一对应。
N为6,训练样本为6个,上述2个标签向量中,每一标签向量分别包括与6个训练样本一一对应的6个第一元素,6个训练样本中,每一训练样本都有其对应的样本标签,例如,第3个训练样本的样本标签为第一类样本标签“1”。
m为2,第2类样本标签即为上述样本标签为“-1”的第二类样本标签。
n为3,样本标签为“-1”的第2个标签向量中的第3个第一元素即可以表征:基于上述样本标签为“-1”的第二类样本标签,所确定的第3个训练样本的样本标签“1”的加密值。
应理解地是,在本申请中,可以采用相应的加密算法,例如同态加密算法等,得到上述加密值,考虑到现有数据加密手段的多样性,本申请对如何得到上述加密值的具体实现方式并不做具体限制。
需要说明,考虑到在第二参与方在接收到M个标签向量后,需要对M个目标向量中的各个第一元素对应的特定属性进行识别,因此,上述第一参与方所发送的M个标签向量中,每一第一元素均可以携带其对应的样本标签类别标识信息和训练样本的样本标识信息等中的至少一项,本申请对此并不做具体限制。
在S120中,具体实现时,第一参与方可以基于预先设置的通信信道及通信协议,接收由第二参与方所发送的目标特征对应的M个目标向量,考虑到现有通信机制的多样性,因此本申请在此对上述M个目标向量的接收方式不做具体限制。
本实施例中,上述M个目标向量与M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定。
有前述关于M个标签向量的论述可知,M个标签向量与M类样本标签一一对应。假设M为2,样本标签可以包括两类,第一类的样本标签为“1”,第二类的样本标签为“-1”,那么,对于与第一类样本标签“1”对应的第一标签向量,其在M个目标向量中有一与之对应的第一目标向量,该第一目标向量基于该第一标签向量确定得到。
需要说明,在朴素贝叶斯模型训练的纵向联邦建模场景中,第一参与方可以存储有上述N个训练样本的一部分特征,例如特征X1,第二参与方可以存储有N个训练样本的另一部分特征,例如X2。
如此,上述目标特征即为第二参与方所存储的N个训练样本的另一部分特征,例如X2。
该目标特征可以对应有K种取值。为了便于更好地理解本申请实施例,本实施例种可以将目标特征视为一变量,该变量有其对应的K种取值。
示例性地,目标特征为X2,K为3,即目标特征(变量)X2对应有3种取值,如A、B、C。在一个更具体示例中,目标特征可以为“性别”,K为2,目标特征“性别”对应的2种取值分别为:“男”、“女”。
在由第二参与方所发送的M个目标向量中,每个目标向量可以包括与目标特征的K种取值一一对应的K个第二元素。例如,目标特征为X2,K为3,目标特征X2有3种取值:A、B、C,那么,在一个目标向量中,即包括对目标特征X2的3种取值A、B、C一一对应的3个第二元素。
任一目标向量中的第k个第二元素可以表征:目标特征的第k种取值对应的训练样本数量的加密值。例如,结合前述示例,与第一类样本标签“1”对应的标签向量为第一标签向量,在M个目标向量中与第一标签向量对应的为第一目标向量,目标特征为X2,K为3,X2对应的三种取值为A、B、C,k为2,那么,第一目标向量中的第2个第二元素,即可以表征:第一训练样本数量的加密值,该第一训练样本数量为:目标特征X2的取值为第2种取值B、且样本标签为第一类样本标签“1”的训练样本的数量。
应理解地是,在本申请中,可以采用相应的加密算法,例如同态加密算法等,得到上述加密值,考虑到现有数据加密手段的多样性,本申请对如何得到上述加密值的具体实现方式并不做具体限制。
以及,需要说明,考虑到在第一参与方所接收到M个目标向量后,需要对M个目标向量中的各个第二元素对应的特定属性进行识别,因此,上述所接收的M个目标向量中,每一第二元素均可以携带其对应的目标特征的特征标识信息、目标特征的实际取值的取值标识信息、以及样本标签类别标识信息、训练样本的样本标识信息等中的至少一项,本申请对此并不做具体限制。
在S130中,具体实现时,在接收到由第二参与方发送的M个目标向量之后,可以通过相应的解密手段对 M个目标向量中的第二元素进行解密,得到每个第二元素所对应的具体训练样本数量。
需要说明,每一第二元素均与一类样本标签和目标特征的一种取值对应。示例性地,若某一第二元素与第一类样本标签“1”和目标特征X2的第二种取值“B”对应,且该第二元素解密后得到的训练样本数量为2,则可以说明:在上述N个训练样本中,样本标签为第一类样本标签“1”、且目标特征X2的取值为“B”的训练样本数量为2。
以此类推,在将M个目标向量中的第二元素均解密后,第一参与方即可得到在不同类别的样本标签,以及,在目标特征的不同取值所对应的训练样本的数量分布情况。
如此,基于上述所得的训练样本的数量分布情况,并结合第一参与方中存储的N个训练样本的部分特征,既可以具体确定N个训练样本对应的条件概率分布表,其中,条件概率分布表可以用于训练朴素贝叶斯模型。
可以理解地是,考虑到现阶段的朴素贝叶斯模型训练手段较为成熟,因此,本申请在此对于如何确定上述用于训练朴素贝叶斯模型的条件概率分布表并不做具体展开说明。
在一些实现方式中,为了能够在确定隐私数据的安全性的同时,有效保障该朴素贝叶斯模型的训练效果,在向第二参与方发送与M类样本标签一一对应的M个标签向量之前,该朴素贝叶斯模型训练方法还可以包括:
基于M类样本标签中的每一类样本标签,分别对N个训练样本的样本标签进行独热编码,生成与M类样本标签一一对应的M个编码向量;
对M个编码向量中的元素分别进行同态加密,得到M个标签向量。
独热编码(One-Hot Encoding),又称一位有效编码,其具体使用N位状态寄存器来对N个状态进行编码。
同态加密(Homomorphic Encryption),在将原始数据经过同态加密后,对得到的密文进行特定的运算,然后将计算结果再进行同态解密后得到的明文,仍等价于原始明文数据直接进行相同计算所得到的数据结果。
本实施例中,针对M类样本标签中的每一类样本标签,选用独热编码对上述N个训练样本的样本标签进行01编码,继而生成与M类样本标签一一对应的M个编码向量。
在得到上述M个编码向量后,考虑到后续第二参与方的运算需求,以及,为了保障朴素贝叶斯模型的训练效果不受影响,因此,本实施例在众多加密方式中选用同态加密方式对M个编码向量中的元素分别进行加密处理,从而得到M个标签向量。
需要说明,具体实现时,在对N个训练样本的样本标签进行独热编码之前,可以是先基于N个训练样本的样本标签,生成初始向量,该初始向量中的元素与训练样本的标签对应。
如此,在对N个训练样本的样本标签进行独热编码时,可以针对M类样本标签中的每一类样本标签,直接对初始向量中的每一元素进行独热编码,从而可以得到与M类样本标签一一对应的M个编码向量。
在其他一些实施例中,还可以针对M类样本标签的每一类样本标签,对N个训练样本的样本标签进行编码后,基于编码后的编码值组合生成与M类样本标签一一对应的M个编码向量,本申请对此并不做具体限制。
需要说明,在其他一些方式中,除上述独热编码方式外,可以是采用其他编码方式,例如自然编码,格雷码等编码方式,对上述N个训练样本的样本标签进行编码,继而生成M类样本标签一一对应的M个编码向量M个编码向量,本申请对此并不做具体限制。
本实施例中,为了更直观的展现上述M个编码向量的表现形式,还提供了在同态加密下的M个编码向量的具体表达式,具体如下:
需要说明,在上述朴素贝叶斯模型训练结束后,会进行实际的样本标签预测,而在此过程中,同样存在数据隐私的安全性问题,因此,针对朴素贝叶斯模型的预测应用,本申请提供了一种能够有效保护样本数据安全隐私的方案,具体如下:
在一些实施方式中,上述条件概率分布表具体可以包括:与目标特征的K种取值一一对应的M类样本标签的概率;该朴素贝叶斯模型训练方法还可以包括:
在朴素贝叶斯模型训练结束后,向第二参与方发送预测样本的样本标识;
接收第二参与方发送的预测样本对应的特征信息,特征信息可以包括:目标特征的特征标识,以及目标标识,目标标识用于标识预测样本的目标特征的实际取值;
基于特征信息,通过条件概率分布表预测预测样本的样本标签。
本实施例中,在进行预测样本的样本标签预测时,第一参与方仅将预测样本的样本标识发送给第二参与方,第二参与方无法获知该预测样本的具体内容;第二参与方在接收到预测样本的样本标识后,仅将与该预测样本对应的目标特征的特征标识和目标标识发送给第一参与方,第一参与方或其他恶意拦截方并不清楚该预测样本的目标特征的具体含义和具体取值。
如此,在上述朴素贝叶斯模型的预测阶段,仍然能够有效保障预测样本相关数据信息的安全性。
示例性地,第一参与方所发送的预测样本的样本标识可以为1101,那么,第二参与方在接收到该样本标识后,可以基于该样本标识1101确定其对应的目标特征的实际取值。
结合前述示例,若目标特征为X2,其对应三种取值A、B、C,若所确定的该预测样本对应的实际取值为B,此时,第二参与方可以将目标特征X2的特征标识,例如,010,以及取值B的标识(即目标标识),例如,10,以及上述预测样本的样本标识1101作为该预测样本对应的特征信息发送至第一参与方,如此,第一参与方在接收到上述特征信息后,可以通过上述条件概率分布表确定该预测样本概率最大的样本标签。
需要说明,上述标识具体可以采用数值、字符、文本或者代码等形式,本申请对此并不做具体限制。
在一些实施方式中,为了实现基于朴素贝叶斯模型的预测样本的精准预测,上述特征信息中还可以包括上述预测样本的样本标识。
如此,在第一参与方接收到上述特征信息之后,可以根据特征信息中所包含的预测样本的样本标识,实现特征信息与该预测样本的精准匹配,从而进一步提升本申请朴素贝叶斯模型的训练效果。
在一些实施方式中,为了在保障传输样本数据的安全性的同时,确保第一参与方及第二参与方的信息管理权限,在向第二参与方发送与M类样本标签一一对应的M个标签向量之前,该朴素贝叶斯模型训练方法还可以包括:
生成用于同态加密的第一公钥和第一私钥,并将第一公钥发送至第二参与方;
上述接收第二参与方发送的目标特征对应的M个目标向量,可以包括:
接收第二参与方发送的基于第一公钥加密后的目标特征对应的M个目标向量;
上述根据M个目标向量,确定N个训练样本对应的条件概率分布表,可以包括:
基于第一私钥,对M个目标向量进行解密,得到M个目标向量的明文结果;
基于M个目标向量的明文结果,确定N个训练样本对应的条件概率分布表。
本实施例中,通过上述第一公钥和第一私钥的生成和分发,可以充分保障第一参与方对于加密数据的解密权限,从而进一步保障了样本隐私数据的安全性。
下面请参见图2,图2示出了本申请一实施例提供的应用于第二参与方的朴素贝叶斯模型训练方法的流程示意图。该朴素贝叶斯模型训练方法应用于第二参与方,第二参与方存储有N个训练样本对应的目标特征,目标特征对应K种取值;N、K均为正整数。
需要说明,本申请中,上述第二参与方所存储的目标特征可以仅为一个,也可以为多个,具体可以视纵向联邦建模场景下训练样本的特征分布情况而定。
上述第二参与方可以为电子设备,具体可以对应朴素贝叶斯模型训练的纵向联邦建模场景中的服务端等,本申请对此不作具体限制。
如图2所示,该朴素贝叶斯模型训练方法包括以下步骤:
S210,接收第一参与方发送的M个标签向量;其中,M个标签向量与M类样本标签一一对应,每个标签向量分别包括与N个训练样本对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数;
S220,向第一参与方发送目标特征对应的M个目标向量,以使第一参与方基于M个目标向量,对朴素贝叶斯模型进行训练;其中,每个目标向量包括与K种取值一一对应的K个第二元素,第k个第二元素表征:目标特征的第k种取值对应的训练样本数量的加密值;M个目标向量与M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数。
本申请实施例的朴素贝叶斯模型训练方法,应用于第二参与方,能够通过接收第一参与方发送的与M类样本标签一一对应的M个标签向量,其标签向量中的元素为相应信息的加密值,再向第一参与方发送目标特征对应的M个目标向量,其目标向量中的元素为相应信息的加密值。本申请实施例的一种朴素贝叶斯模型训练方法,在对类别型变量的朴素贝叶斯模型进行训练时,相较于现有技术中的明文信息传递,选择传输不包含具体样本标签、样本具体特征含义以及取值的加密向量信息,能够在保障朴素贝叶斯模型训练效果的同时,充分实现对训练样本数据的隐私保护。
在S210中,具体实现时,第二参与方可以基于预先设置的通信信道及通信协议,接收第一参与方所发送的与M类样本标签一一对应的M个标签向量,考虑到现有通信机制的多样性,因此本申请在此对上述M个标签向量的接收方式不做具体限制。
其中,M个标签向量与M类样本标签一一对应,每个标签向量分别包括与N个训练样本对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数。
应理解地是,为了不做过多赘述,本实施例中对上述M个标签向量的含义不做重复性的展开说明,具体介绍可以参见前述步骤110中的相关描述。
在S220中,具体实现时,第二参与方可以基于预先设置的通信信道及通信协议,向第一参与方发送目标特征对应的M个目标向量,以使第一参与方基于M个目标向量,对朴素贝叶斯模型进行训练。考虑到现有通信机制的多样性,因此本申请在此对上述M个目标向量的发送方式不做具体限制。
其中,每个目标向量包括与K种取值一一对应的K个第二元素,第k个第二元素表征:目标特征的第k种取值对应的训练样本数量的加密值;M个目标向量与M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数。
应理解地是,同样地,为了不做过多赘述,本实施例中对上述M个目标向量的含义不做重复性的展开说明,具体介绍可以参见前述步骤120中的相关描述。
在一些实现方式中,为了进一步保障上述朴素贝叶斯模型的训练效果,在接收第一参与方发送的M个标签向量之后,在向第一参与方发送目标特征对应的M个目标向量之前,该朴素贝叶斯模型训练方法还可以包括:
生成与N个训练样本对应的目标特征的特征矩阵;其中,特征矩阵可以为K×N矩阵,特征矩阵的第k行第n列的第三元素表征:第n个训练样本对应的目标特征的第k种取值的编码值;
将M个标签向量分别与特征矩阵进行内积运算,得到M个目标向量。
需要说明,在生成特征矩阵阶段,为了得到上述为编码值形式的第三元素,可以采用独热编码方式对第n个训练样本对应的目标特征的第k种取值进行编码,本申请对此并不做具体限制。
具体实现时,可以是根据目标特征的K种取值中的每一种取值情况,对N个训练样本中每一训练样本对应的目标特征的实际取值进行相应编码操作,继而生成上述为K×N矩阵的特征矩阵。
本实施例中,为了更直观的展现上述特征矩阵的表现形式,还提供了该特征矩阵的具体表达式,具体如下:
其中,j标识目标特征,表示第n个训练样本对应的目标特征j的取值,表示
目标特征的第k种取值,K为目标特征j的所有可能取值的数量,N为训练样本的总个数,n为
小于或等于N的正整数,k为小于或等于K的正整数。
在一些实现方式中,该朴素贝叶斯模型训练方法还可以包括:
在朴素贝叶斯模型训练结束后,接收第一参与方发送的预测样本的样本标识;
基于预测样本的样本标识,向第一参与方发送预测样本对应的特征信息,以使第一参与方基于特征信息对预测样本的样本标签进行预测;
其中,特征信息可以包括:目标特征对应的特征标识和目标标识,目标标识为目标取值的标识,目标取值为预测样本对应的目标特征的实际取值。
需要说明,上述标识具体可以采用数值、字符、文本或者代码等形式,本申请对此并不做具体限制。
在一些实施方式中,为了在保障传输样本数据的安全性的同时,确保第一参与方及第二参与方的信息管理权限,对于在向第一参与方发送目标特征对应的M个目标向量之前,该朴素贝叶斯模型训练方法还可以包括:
接收由第一参与方发送的用于同态加密的第一公钥;
向第一参与方发送目标特征对应的M个目标向量,包括:
为了便于理解上述实施例提供的朴素贝叶斯模型训练方法,以下以一个具体的第一参与方和第二参与方的整体实施例对上述朴素贝叶斯模型训练方法进行说明。
本整体实施例中,第一参与方具体可以对应朴素贝叶斯模型的纵向联邦建模场景中的客户端,第二参与方具体可以对应朴素贝叶斯模型的纵向联邦建模场景中的服务端。
请参见表1,
表1
表1中,共有6个训练样本(N=6),样本标签分为“1”“-1”两类(M=2),每一训练样本有其对应的样本标签,6个训练样本对应的样本标签存储在第一参与方;目标特征的取值包括A、B、C三种(K=3),6个训练样本对应的目标特征的实际取值情况存储在第二参与方。
该整体实施例可以具体包括以下步骤:
步骤一,第一参与方基于“1”“-1”两类样本标签中的每一类样本标签,分别对6个训练样本的样本标签进行独热编码,生成与两类样本标签一一对应的2个编码向量。
对于第一类样本标签“1”
若训练样本的样本标签为“1”,则将该训练样本的样本标签编码为1,否则,编码为0。基于此,可以得到与第一类样本标签“1”的编码向量为:
对于第二类样本标签“-1”
若训练样本的样本标签为“-1”,则将该训练样本的样本标签编码为1,否则,编码为0。基于此,可以得到与第二类样本标签“-1”的编码向量为:
基于此,得到与两类样本标签一一对应的2个编码向量[0,0,1,1,1,1] 、[1,1,0 ,0,0,0]。
步骤二,第一参与方对上述2个编码向量中的元素分别进行同态加密,得到2个标签向量。
具体地,上述与两类样本标签一一对应的2个编码向量[0,0,1,1,1,1] 、[1,1,0 ,0,0,0]中的编码值分别进行同态加密,得到如下2个标签向量:
步骤三,第一参与方向第二参与方发送与2类样本标签一一对应的2个标签向量,第二参与方接收第一参与方发送的2个标签向量。
具体实现时,可以基于第一参与方与第二参与方之间预先设置的通信信道及通信协议,实现上述2个标签向量的发送及接收。考虑到现有通信机制的多样性,因此本申请在此对上述第一参与方与第二参与方之间的通信机制不做具体限制。
步骤四,第二参与方生成与6个训练样本对应的目标特征的特征矩阵;其中,特征矩阵可以为3×6矩阵,特征矩阵的第k行第n列的第三元素表征:第n个训练样本对应的目标特征的第k种取值的编码值。
具体实现时,可以是基于目标特征的三种取值情况,对6个训练样本分别对应的目标特征的实际取值进行独热编码,继而生成上述特征矩阵。
具体地,特征矩阵的第一行对应目标特征的取值A,特征矩阵的第二行对应目标特征的取值B,特征矩阵的第三行对应目标特征的取值C,特征矩阵的第一列对应训练样本1,特征矩阵的第二列对应训练样本2,以此类推,特征矩阵的第六列对应训练样本6。
若在进行独热编码时,假设对于目标特征的取值A,若6个训练样本中,某一训练样本的目标特征的取值为A,则将该训练样本的目标特征的取值的编码值确定为1,否则,编码为0。以此类推,可以得到如下特征矩阵:
步骤五,第二参与方将上述2个标签向量分别与特征矩阵进行内积运算,得到2个目标向量。
对每行元素求和得到与该标签向量对应的第一目标向量,该第一目标向量与第一类样本标签“1”对应:
对每行元素求和得到与该标签向量对应的第二目标向量,该第二目标向量与第二类样本标签“-1”对应:
步骤六,第二参与方向第一参与方发送目标特征对应的2个目标向量(包括上述第一目标向量和第二目标向量),以使第一参与方基于2个目标向量,对朴素贝叶斯模型进行训练;第一参与方接收第二参与方发送的目标特征对应的2个目标向量。
步骤七,第一参与方根据2个目标向量,确定6个训练样本对应的条件概率分布表,其中,条件概率分布表用于训练朴素贝叶斯模型。
具体实现时,对于上述与第一类样本标签“1”对应的第一目标向量进行解密,得到:
对于上述与第二类样本标签“-1”对应的第二目标向量进行解密,得到:
在将2个目标向量中的第二元素均解密后,第一参与方即可得到在不同类别的样本标签,以及,在目标特征的不同取值所对应的训练样本的数量分布情况。
如此,基于上述所得的训练样本的数量分布情况,并结合第一参与方中存储的6个训练样本的部分特征,例如,特征X1,既可以具体确定N个训练样本对应的条件概率分布表,进而实现对朴素贝叶斯模型的训练。
可以理解地是,考虑到现阶段的朴素贝叶斯模型训练手段较为成熟,因此,本申请在此对于如何确定上述用于训练朴素贝叶斯模型的条件概率分布表并不做具体展开说明。
基于上述实施例提供的应用于第一参与方的朴素贝叶斯模型训练方法,本申请还提供了与上述朴素贝叶斯模型训练方法相对应的一种朴素贝叶斯模型训练装置,下面通过图3对朴素贝叶斯模型训练装置进行详细介绍。
图3示出了本申请一实施例提供的应用于第一参与方的朴素贝叶斯模型训练装置的结构示意图。图3示出的朴素贝叶斯模型训练装置应用于第一参与方,该朴素贝叶斯模型训练装置包括:
第一发送模块310,用于向第二参与方发送与M类样本标签一一对应的M个标签向量;其中,每个标签向量分别包括与N个训练样本一一对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数,N为正整数,M为正整数;
第一接收模块320,用于接收第二参与方发送的目标特征对应的M个目标向量;其中,目标特征为第二参与方存储的训练样本的特征,目标特征对应K种取值;每个目标向量包括与K种取值一一对应的K个第二元素,第k个第二元素表征:目标特征的第k种取值对应的训练样本数量的加密值;M个目标向量与M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数,K为正整数;
第一确定模块330,用于根据M个目标向量,确定N个训练样本对应的条件概率分布表,其中,条件概率分布表用于训练朴素贝叶斯模型。
本申请实施例的朴素贝叶斯模型训练装置,应用于第一参与方,能够通过向第二参与方发送与M类样本标签一一对应的M个标签向量,其标签向量中的元素为相应信息的加密值,并接收第二参与方发送的目标特征对应的M个目标向量,其目标向量中的元素为相应信息的加密值,如此,来实现对朴素贝叶斯模型训练中的条件概率分布表的确定。本申请实施例的一种朴素贝叶斯模型训练装置,在对类别型变量的朴素贝叶斯模型进行训练时,相较于现有技术中的明文信息传递,选择传输不包含具体样本标签、样本具体特征含义以及取值的加密向量信息,能够在保障朴素贝叶斯模型训练效果的同时,充分实现对训练样本数据的隐私保护。
在一些实现方式中,为了能够在确定隐私数据的安全性的同时,有效保障该朴素贝叶斯模型的训练效果,向第二参与方发送与M类样本标签一一对应的M个标签向量之前,该朴素贝叶斯模型训练装置还可以包括:
编码模块,可以用于基于M类样本标签中的每一类样本标签,分别对N个训练样本的样本标签进行独热编码,生成与M类样本标签一一对应的M个编码向量;
加密模块,可以用于对M个编码向量中的元素分别进行同态加密,得到M个标签向量。
在一些实现方式中,条件概率分布表可以包括:与目标特征的K种取值一一对应的M类样本标签的概率;该朴素贝叶斯模型训练装置还可以包括:
第三发送模块,可以用于在朴素贝叶斯模型训练结束后,向第二参与方发送预测样本的样本标识;
第三接收模块,可以用于接收第二参与方发送的预测样本对应的特征信息,特征信息可以包括:目标特征的特征标识,以及目标标识,目标标识可以用于标识预测样本的目标特征的实际取值;
基于特征信息,通过条件概率分布表预测预测样本的样本标签。
基于上述实施例提供的应用于第二参与方的朴素贝叶斯模型训练方法,本申请还提供了与上述朴素贝叶斯模型训练方法相对应的一种朴素贝叶斯模型训练装置,下面通过图4对朴素贝叶斯模型训练装置进行详细介绍。
图4示出了本申请一实施例提供的应用于第二参与方的朴素贝叶斯模型训练装置的结构示意图。图4示出的朴素贝叶斯模型训练装置应用于第二参与方,第二参与方存储有N个训练样本对应的目标特征,目标特征对应K种取值;N、K均为正整数;该朴素贝叶斯模型训练装置包括:
第二接收模块410,用于接收第一参与方发送的M个标签向量;其中,M个标签向量与M类样本标签一一对应,每个标签向量分别包括与N个训练样本对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数;
第二发送模块420,用于向第一参与方发送目标特征对应的M个目标向量,以使第一参与方基于M个目标向量,对朴素贝叶斯模型进行训练;其中,每个目标向量包括与K种取值一一对应的K个第二元素,第k个第二元素表征:目标特征的第k种取值对应的训练样本数量的加密值;M个目标向量与M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数。
本申请实施例的朴素贝叶斯模型训练装置,应用于第二参与方,能够通过相应的功能模块,接收第一参与方发送的与M类样本标签一一对应的M个标签向量,其标签向量中的元素为相应信息的加密值,再向第一参与方发送目标特征对应的M个目标向量,其目标向量中的元素为相应信息的加密值。本申请实施例的一种朴素贝叶斯模型训练装置,在对类别型变量的朴素贝叶斯模型进行训练时,相较于现有技术中的明文信息传递,选择传输不包含具体样本标签、样本具体特征含义以及取值的加密向量信息,能够在保障朴素贝叶斯模型训练效果的同时,充分实现对训练样本数据的隐私保护。
在一些实现方式中,在接收第一参与方发送的M个标签向量之后,在向第一参与方发送目标特征对应的M个目标向量之前,该朴素贝叶斯模型训练装置还可以包括:
生成模块,可以用于生成与N个训练样本对应的目标特征的特征矩阵;其中,特征矩阵可以为K×N矩阵,特征矩阵的第k行第n列的第三元素表征:第n个训练样本对应的目标特征的第k种取值的编码值;
得到模块,可以用于将M个标签向量分别与特征矩阵进行内积运算,得到M个目标向量。
在一些实现方式中,该朴素贝叶斯模型训练装置还可以包括:
第四接收模块,可以用于在朴素贝叶斯模型训练结束后,接收第一参与方发送的预测样本的样本标识;
第四发送模块,可以用于基于预测样本的样本标识,向第一参与方发送预测样本对应的特征信息,以使第一参与方基于特征信息对预测样本的样本标签进行预测;
其中,特征信息可以包括:目标特征对应的特征标识和目标标识,目标标识为目标取值的标识,目标取值为预测样本对应的目标特征的实际取值。
图5是本申请一实施例提供的朴素贝叶斯模型训练设备的结构示意图。
朴素贝叶斯模型训练设备可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit ,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关容灾设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种朴素贝叶斯模型训练方法。
在一个示例中,数据朴素贝叶斯模型训练设备还可包括通信接口503和总线510。其中,如图5所示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。
通信接口503,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将朴素贝叶斯模型训练设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该朴素贝叶斯模型训练设备执行本申请实施例中的朴素贝叶斯模型训练方法,从而实现图1及图2描述的朴素贝叶斯模型训练方法。
另外,结合上述实施例中的朴素贝叶斯模型训练方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种朴素贝叶斯模型训练方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或***。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的***、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种数据交互方法,其特征在于,应用于第一参与方,所述第一参与方为客户端,所述方法包括:
向第二参与方发送与M类样本标签一一对应的M个标签向量;其中,每个所述标签向量分别包括与N个训练样本一一对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于所述第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数,N为正整数,M为正整数;
接收所述第二参与方发送的目标特征对应的M个目标向量;其中,所述目标特征为所述第二参与方存储的所述训练样本的特征,所述目标特征对应K种取值;每个所述目标向量包括与所述K种取值一一对应的K个第二元素,第k个第二元素表征:所述目标特征的第k种取值对应的训练样本数量的加密值;所述M个目标向量与所述M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数,K为正整数;
根据所述M个目标向量,确定所述N个训练样本对应的条件概率分布表,其中,所述条件概率分布表用于训练朴素贝叶斯模型。
2.根据权利要求1所述的方法,其特征在于,所述向第二参与方发送与M类样本标签一一对应的M个标签向量之前,所述方法还包括:
基于M类样本标签中的每一类样本标签,分别对所述N个训练样本的样本标签进行独热编码,生成与所述M类样本标签一一对应的M个编码向量;
对所述M个编码向量中的元素分别进行同态加密,得到所述M个标签向量。
3.根据权利要求1或2所述的方法,其特征在于,所述条件概率分布表包括:与所述目标特征的K种取值一一对应的所述M类样本标签的概率;所述方法还包括:
在所述朴素贝叶斯模型训练结束后,向所述第二参与方发送预测样本的样本标识;
接收所述第二参与方发送的所述预测样本对应的特征信息,所述特征信息包括:所述目标特征的特征标识,以及目标标识,所述目标标识用于标识所述预测样本的所述目标特征的实际取值;
基于所述特征信息,通过所述条件概率分布表预测所述预测样本的样本标签。
4.一种数据交互方法,其特征在于,应用于第二参与方,所述第二参与方为服务端,所述第二参与方存储有N个训练样本对应的目标特征,所述目标特征对应K种取值;N、K均为正整数;所述方法包括:
接收第一参与方发送的M个标签向量;其中,所述M个标签向量与M类样本标签一一对应,每个所述标签向量分别包括与所述N个训练样本对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于所述第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数;
向所述第一参与方发送所述目标特征对应的M个目标向量,以使所述第一参与方基于所述M个目标向量,对朴素贝叶斯模型进行训练;其中,每个所述目标向量包括与所述K种取值一一对应的K个第二元素,第k个第二元素表征:所述目标特征的第k种取值对应的训练样本数量的加密值;所述M个目标向量与所述M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数。
5.根据权利要求4所述的方法,其特征在于,在所述接收第一参与方发送的M个标签向量之后,在所述向所述第一参与方发送所述目标特征对应的M个目标向量之前,所述方法还包括:
生成与所述N个训练样本对应的所述目标特征的特征矩阵;其中,所述特征矩阵为K×N矩阵,所述特征矩阵的第k行第n列的第三元素表征:第n个训练样本对应的所述目标特征的第k种取值的编码值;
将所述M个标签向量分别与所述特征矩阵进行内积运算,得到所述M个目标向量。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
在所述朴素贝叶斯模型训练结束后,接收所述第一参与方发送的预测样本的样本标识;
基于所述预测样本的样本标识,向所述第一参与方发送所述预测样本对应的特征信息,以使所述第一参与方基于所述特征信息对所述预测样本的样本标签进行预测;
其中,所述特征信息包括:所述目标特征对应的特征标识和目标标识,所述目标标识为目标取值的标识,所述目标取值为所述预测样本对应的所述目标特征的实际取值。
7.一种数据交互装置,其特征在于,应用于第一参与方,所述第一参与方为客户端,所述装置包括:
第一发送模块,用于向第二参与方发送与M类样本标签一一对应的M个标签向量;其中,每个所述标签向量分别包括与N个训练样本一一对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于所述第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数,N为正整数,M为正整数;
第一接收模块,用于接收所述第二参与方发送的目标特征对应的M个目标向量;其中,所述目标特征为所述第二参与方存储的所述训练样本的特征,所述目标特征对应K种取值;每个所述目标向量包括与所述K种取值一一对应的K个第二元素,第k个第二元素表征:所述目标特征的第k种取值对应的训练样本数量的加密值;所述M个目标向量与所述M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数,K为正整数;
第一确定模块,用于根据所述M个目标向量,确定所述N个训练样本对应的条件概率分布表,其中,所述条件概率分布表用于训练朴素贝叶斯模型。
8.一种数据交互装置,其特征在于,应用于第二参与方,所述第二参与方为服务端,所述第二参与方存储有N个训练样本对应的目标特征,所述目标特征对应K种取值;N、K均为正整数;所述装置包括:
第二接收模块,用于接收第一参与方发送的M个标签向量;其中,所述M个标签向量与M类样本标签一一对应,每个所述标签向量分别包括与所述N个训练样本对应的N个第一元素,第m类样本标签对应的标签向量中第n个第一元素表征:基于所述第m类样本标签确定的第n个训练样本对应的样本标签的加密值,n为小于或等于N的正整数,m为小于或等于M的正整数;
第二发送模块,用于向所述第一参与方发送所述目标特征对应的M个目标向量,以使所述第一参与方基于所述M个目标向量,对朴素贝叶斯模型进行训练;其中,每个所述目标向量包括与所述K种取值一一对应的K个第二元素,第k个第二元素表征:所述目标特征的第k种取值对应的训练样本数量的加密值;所述M个目标向量与所述M个标签向量一一对应,第m个目标向量基于其对应的标签向量确定,k为小于或等于K的正整数。
9.一种数据交互设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-6任意一项所述的数据交互方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的数据交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211119397.7A CN115204320B (zh) | 2022-09-15 | 2022-09-15 | 朴素贝叶斯模型训练方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211119397.7A CN115204320B (zh) | 2022-09-15 | 2022-09-15 | 朴素贝叶斯模型训练方法、装置、设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115204320A CN115204320A (zh) | 2022-10-18 |
CN115204320B true CN115204320B (zh) | 2022-11-15 |
Family
ID=83572301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211119397.7A Active CN115204320B (zh) | 2022-09-15 | 2022-09-15 | 朴素贝叶斯模型训练方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115204320B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914281A (zh) * | 2020-08-18 | 2020-11-10 | 中国银行股份有限公司 | 基于区块链和同态加密的贝叶斯模型训练方法及装置 |
CN111966875A (zh) * | 2020-08-18 | 2020-11-20 | 中国银行股份有限公司 | 一种敏感信息识别方法和装置 |
WO2021197037A1 (zh) * | 2020-04-01 | 2021-10-07 | 支付宝(杭州)信息技术有限公司 | 双方联合进行数据处理的方法及装置 |
WO2022142108A1 (zh) * | 2020-12-30 | 2022-07-07 | 平安科技(深圳)有限公司 | 面试实体识别模型训练、面试信息实体提取方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7299215B2 (en) * | 2002-05-10 | 2007-11-20 | Oracle International Corporation | Cross-validation for naive bayes data mining model |
US7624006B2 (en) * | 2004-09-15 | 2009-11-24 | Microsoft Corporation | Conditional maximum likelihood estimation of naïve bayes probability models |
-
2022
- 2022-09-15 CN CN202211119397.7A patent/CN115204320B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021197037A1 (zh) * | 2020-04-01 | 2021-10-07 | 支付宝(杭州)信息技术有限公司 | 双方联合进行数据处理的方法及装置 |
CN111914281A (zh) * | 2020-08-18 | 2020-11-10 | 中国银行股份有限公司 | 基于区块链和同态加密的贝叶斯模型训练方法及装置 |
CN111966875A (zh) * | 2020-08-18 | 2020-11-20 | 中国银行股份有限公司 | 一种敏感信息识别方法和装置 |
WO2022142108A1 (zh) * | 2020-12-30 | 2022-07-07 | 平安科技(深圳)有限公司 | 面试实体识别模型训练、面试信息实体提取方法及装置 |
Non-Patent Citations (1)
Title |
---|
云计算环境下朴素贝叶斯安全分类外包方案研究;陈思;《计算机应用与软件》;20200712(第07期);第281-286页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115204320A (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9497021B2 (en) | Device for generating a message authentication code for authenticating a message | |
CN107113180B (zh) | 分组发送装置、分组接收装置以及存储介质 | |
CN1105168A (zh) | 一种在保密通信***中用于点对点通信的方法 | |
Gafsi et al. | Efficient encryption system for numerical image safe transmission | |
US11436946B2 (en) | Encryption device, encryption method, decryption device, and decryption method | |
CN108964870A (zh) | 基于自同步混沌密码的铁路应答器报文安全增强方法 | |
CN104995866A (zh) | 使用利用无进位乘法计算的通用哈希函数的消息认证 | |
CN115204320B (zh) | 朴素贝叶斯模型训练方法、装置、设备及计算机存储介质 | |
CN105678185B (zh) | 一种数据安全保护方法以及智能终端管理*** | |
CN117335953A (zh) | 在具有分布式计算机的计算环境中进行数据处理的方法 | |
Deng et al. | LSB color image embedding steganography based on cyclic chaos | |
CN114422230B (zh) | 一种基于数据加密的信息传输*** | |
CN114553549A (zh) | 一种数据加密方法及*** | |
CN115659381B (zh) | 联邦学习的woe编码方法、装置、设备及存储介质 | |
CN106992861B (zh) | 一种带有epc标签的rfid密钥无线生成方法及*** | |
CN111556496A (zh) | 一种无线通信方法及收发装置 | |
Jaber et al. | Application of image encryption based improved chaotic sequence complexity algorithm in the area of ubiquitous wireless technologies | |
CN118200049B (zh) | 一种金融数据的加密方法、加密装置、设备及介质 | |
CN112769858B (zh) | 一种无线通信中基于量子学习的安全非随机叠加编码方法 | |
CN112464262B (zh) | 联盟链加密方法、装置、设备和存储介质 | |
CN114500006B (zh) | 查询请求的处理方法及装置 | |
CN113343269B (zh) | 一种加密方法及装置 | |
CN116980125A (zh) | 一种报文处理方法、***和存储介质 | |
CN117057804B (zh) | 基于哈希序列的金融交易数据安全存储方法及*** | |
CN117221878B (zh) | 一种基于无线网络设备的信息安全管控方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |