CN111858955B - 基于加密联邦学习的知识图谱表示学习增强方法和装置 - Google Patents
基于加密联邦学习的知识图谱表示学习增强方法和装置 Download PDFInfo
- Publication number
- CN111858955B CN111858955B CN202010629643.8A CN202010629643A CN111858955B CN 111858955 B CN111858955 B CN 111858955B CN 202010629643 A CN202010629643 A CN 202010629643A CN 111858955 B CN111858955 B CN 111858955B
- Authority
- CN
- China
- Prior art keywords
- word vector
- learning
- knowledge
- entity
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Animal Behavior & Ethology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于知识图谱表示学习技术领域,提供了一种基于加密联邦学习的知识图谱表示学习增强方法,首先在本地对知识图谱进行表示学习训练获得对齐实体的词向量,然后以联邦学习的方式,接收外部发来的对齐节点的词向量,并通过联邦学习的GAN更新本地的对齐节点的词向量,最后继续进行下一次在本地的对知识图谱进行表示学习训练,以此循环的获得增强的表示学习的效果。本发明还提供了异步训练装置、生成式对抗学习装置和联邦学习装置,以便实施该方法。本发明提供技术方案实现了在同态加密下进行不信任数据提供者之间多知识图谱下的联邦学习,增强数据提供者各自知识图谱的表示学习能力。
Description
技术领域
本发明实例涉及人工智能的数据处理技术,尤其涉及一种基于加密联邦学习的知识图谱表示学习增强方法和装置。
背景技术
联邦学习(Federated Learning)是一种分布式机器学习技术,其利用不互通数据库中的信息进行跨数据库的全局机器学习模型训练。联邦学习技术能够在保证数据隐私安全及合法合规的基础上,实现多数据库共同建模,即共同训练一个机器学习模型,提升机器学习模型的效果。
知识图谱(Knowledge Graph)表示学习是语义网络的知识库。通过对自然实体及它们间关系的抽取得到以多关系图形式存储的机器学习语义模型。在知识图谱中,通过词向量中携带的语义信息对实体及关系进行表示。基于知识图谱对客观时间中实体及关系的表示,计算机***能够更好地对互联网中的大数据进行组织、管理和学习理解。
在自然语言处理(NLP)领域,词向量是用一个向量来表示一个词,从而将自然语言数学符号化,以便计算机对自然语言进行处理。更具体地说,在本专利中词向量是指知识图谱中实体节点的“知识词向量”。
同态加密技术是数据在加密后得到的密文经过某种运算,对运算结果进行解密后仍能得到相应的数据运算结果的技术。同态加密可以实现数据提供者和运算执行者之间的相互保密,即数据提供者不会将明文数据泄露给运算执行者。同态加密技术能做到不信任条件下的数据交换和计算,是非信任云计算和分布式计算的基础。
现有技术中,数据提供者对其数据集的知识图谱表示学习时,由于对网络中其他数据提供者不信任,因此无法利用其他数据提供者的知识图谱表示学习结果加强本地学习效果。
发明内容
本发明提供一种基于加密联邦学习的知识图谱表示学习增强方法和装置,在同态加密下进行不信任数据提供者之间多知识图谱下的联邦学习,增强数据提供者各自知识图谱的表示学习能力。
本发明第一方面的实施例提供一种基于加密联邦学习的知识图谱表示学习增强方法,包括:
在第一数据处理端,对第一知识图谱进行表征学习,获得该知识图谱中第一实体的第一词向量;
在第二数据处理端,对第二知识图谱进行表征学习,获得该知识图谱中与所述第一实体对齐的第二实体的第二词向量;
第二数据处理端接收同态加密的所述第一词向量,使用所述第一词向量和所述第二词向量以生成式对抗网络的形式进行联邦学习,获得所述第二实体的融合后的第三词向量;
在第二数据处理端,将所述第二知识图谱中第二实体的第二词向量替换为所述第三词向量后,继续对第二知识图谱进行表征学习,以便获得该知识图谱中各个实体的增强后的第四词向量。
上述方案进一步的改进在于,为了提高联邦学习的效果,将数据处理端之间的信息交换扩大到对齐实体的一跳节点,在上述知识图谱表示学习增强方法一个改进的实施例中,该方法包括:
在第一数据处理端,对第一知识图谱进行表征学习,获得该知识图谱中第一实体的第一词向量以及该第一实体的一跳节点的第一词向量;
在第二数据处理端,对第二知识图谱进行表征学习,获得该知识图谱中与所述第一实体对齐的第二实体的第二词向量以及与所述第一实体一跳节点对齐的第二实体一跳节点的第二词向量;
第二数据处理端接收同态加密的所述第一词向量,使用所述第一词向量和所述第二词向量以生成式对抗网络的形式进行联邦学习,获得所述第二实体的以及一跳节点的融合后的第三词向量;
在第二数据处理端,将其所述第二知识图谱中第二实体的及第二实体一跳节点的第二词向量替换为所述第三词向量后,继续对第二知识图谱进行表征学习,以便获得该知识图谱中各个实体的增强后的第四词向量。
在一个优选的实施例中,上述知识图谱表示学习增强方法中,其所述表征学习通过TransE方法进行表示嵌入。
在一个优选的实施例中,上述知识图谱表示学习增强方法中,其所述以生成式对抗网络的形式进行联邦学习的步骤包括:
将第二数据提供方接收到的第一词向量的集合记为X={x1,…,xn},将第二知识图谱内与X中各个第一词向量对应的第二词向量的集合记为Y={y1,…,yn};
根据所述生成式对抗网络中的生成器W,学习所述生成式对抗网络中的判别器,使其能够区分随机采样于WX={Wx1,…,Wxn}和Y={y1,…,yn}的元素;
学习所述生成式对抗网络中的生成器W,使其尽可能准确地将X中的元素映射到Y中对应节点的词向量上,使得所述判别器难以判别出一个元素属于WX还是属于Y;
训练所述生成式对抗网络,并且,
以训练结束后获得的WX中的元素为第三词向量,
或者,
以训练结束后获得的WX中的元素与对应的Y中的元素求平均后获得的元素为第三词向量,
或者,
以训练结束后获得的WX中的元素与对应的Y中的元素求和后获得的元素为第三词向量。
上述各个技术方案的进一步改进在于,所述第二数据处理端向所述第一数据处理端共享所述对抗式生成网络。
本发明第二方面的实施例提供一种异步训练装置,部署于数据处理端,用于实施上述基于加密联邦学习的知识图谱表示学习增强方法,该装置包括:
读取模块,用于读取本地原始知识库,将其预处理为包含词向量的本地知识图谱;
表征学习模块,用于接收第一请求,作为响应的启动一次对所述本地知识图谱的表征学习,以便更新所述本地知识图谱中各个实体的词向量;
通信模块,用于与联邦学习服务器以及其他数据处理端进行通信,以便接收所述其他数据处理端的知识图谱的共享词向量信息;所述共享词向量信息经过同态加密;
联邦学习模块,用于将所述共享词向量信息与本地相应词向量送入生成式对抗网络学习,并获得融合后的词向量;所述融合后的词向量用于替换所述本地知识图谱的全部或者部分实体的词向量。
在一个异步训练装置的实施例中,所述通讯模块向所述其他数据处理端发送所述本地知识图谱的共享词向量信息;所述共享词向量信息经过同态加密。
在一个异步训练装置的实施例中,包含运行监控模块;所述运行监控模块用于监督所述异步训练装置执行权利要求1至5任一项所述的知识图谱表示学习增强方法;和/或,用于裁定所述异步训练装置的运行状态;和/或,用于调节所述联邦学习模块的学习效果。
本发明第三方面的实施例提供一种生成式对抗学习装置,部署于数据处理端或者联邦学习服务器,该装置包括:
存储器,用于存储计算机可执行代码和生成式对抗网络;
通讯接口,用于通过第二方面提供的异步训练装置的通信模块与其联邦学习模块通信连接,以便从所述联邦学习模块接收第一词向量的集合和第二词向量的集合,向所述联邦学习模块发送第三词向量的集合;
处理器,用于读取和执行所述计算机可执行代码,以便配置和训练所述生成式对抗网络;所述处理器执行所述计算机可执行代码时,所述计算机可执行代码的指令致使所述处理器执行以下操作:
将所述第一词向量的集合记为X={x1,…,xn},将X中各个第一词向量对应的第二词向量的集合记为Y={y1,…,yn};
根据所述生成式对抗网络中的生成器W,学习所述生成式对抗网络中的判别器,使其能够区分随机采样于WX={Wx1,…,Wxn}和Y={y1,…,yn}的元素;
学习所述生成式对抗网络中的生成器W,使其尽可能准确地将X中的元素映射到Y中对应节点的词向量上,使得所述判别器难以判别出一个元素属于WX还是属于Y;
训练所述生成式对抗网络,并且,
以训练结束后获得的WX中的元素为所述第三词向量输出,
或者,
以训练结束后获得的WX中的元素与对应的Y中的元素求平均后获得的元素为所述第三词向量输出,
或者,
以训练结束后获得的WX中的元素与对应的Y中的元素求和后获得的元素为所述第三词向量输出。
本发明第四方面的实施例提供了一种联邦学习装置,其包括上述第二方面的异步训练装置以及上述第三方面的生成式对抗学习装置。这些异步训练装置分布式的部署于一个网络中不同的数据处理终端,实现了分布式的知识图谱表示学习的增强。
本发明各方面提供的技术中,联邦学习基于生成对抗网络技术(GAN),通过将不同知识图谱中对齐实体的词向量映射到同一表征空间,引入该实体在其它知识图谱中所包含的语义信息,如词向量(Word Embedding),提升对齐实体的词向量的表达能力。其中,联邦学习策略包括:获取不同知识图谱中对齐实体的信息及原始词向量,利用对齐实体信息提取实体在不同知识图谱中的词向量作为生成对抗网络的输入进行训练,得到融合后的词向量,用其替换原始表示学习结果中对齐实体的词向量,以此作为初始值进行下一轮表示学习训练;在此策略基础上,引入对齐实体在其他知识图谱中的一跳节点共同作为生成对抗网络的输入,进一步增强融合词向量的语义丰富程度。加密联邦学习在携带对齐实体的信息的对齐实体词向量的传输过程中使用同态加密算法,将不同知识图谱中词向量的密文作为生成对抗网络的输入进行训练,将得到的融合词向量进行解密。由于加密算法的同态性,在密文进行词向量融合并解密的过程中不会损失语义信息。异步训练装置是多知识图谱共同进行联邦学习的框架,在本发明中,当某一知识图谱的词向量模型得到增强后,向其他知识图谱发送融合请求和对齐节点信息,引导其他知识图谱进行联邦学习训练。本发明具有不会泄露参与知识图谱具体信息的优势;多知识图谱节点共同联邦学习,提高整体知识表征能力的良好效果。
附图说明
为了更清楚地说明本发明实例或现有技术中的技术方案,下面将对实例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个基于加密联邦学习的知识图谱表示学习增强方法实施例的流程图;
图2为本发明一个基于加密联邦学习的知识图谱表示学习增强装置实施例中异步训练装置的结构示意图。
具体实施方式
首先需要说明的是,本发明涉及的现有技术中,数据所有者可以是公司、组织等具有运算需求的机构也可以是边缘计算装置、数据处理端等执行运算任务的设备,每个数据所有者拥有自己的知识库,这些知识库可以是结构化的或者非结构化的数据集。各个数据所有者的知识库存在相关性,并且都需要对自己的知识库进行表征学习以便对其进行归类、分析等下一步的机器学习。由于数据所有者之间的不信任,不能实现各自知识库的共享,因此无法直接获取更多的语义信息优化表征学习的结果,只能在数据所有者信任的本地范围内,对自己的知识库进行表征学习获得该知识库的原始知识图谱。知识图谱至少包含实体(Entities)、关系(Relations)和事实(Facts)的集合,实体可以是实例、概念或者字面量(literal),因为各个知识库具备相关性,因此各个知识库的原始知识图谱之间必然具有相同或等同的实体,一个知识图谱的某一个实体e1与另一个知识图谱的某一个实体e2被赋予了相同或者等同关系时,本发明称为实体e1与实体e2互为对方在各自知识图谱的对齐实体。这种相同或者等同关系,包括知识融合(knowledge fusion)方法中的本体匹配(ontology matching)或者实体对齐(entity alignment),用于为联邦学习提供数据对齐的依据。在图结构上各个知识图谱的对齐实体节点在本发明中可以被认为映射于同一表征空间。通过本发明基于加密联邦学习的知识图谱表示学习增强方法,在一些实施例中,可以使数据所有者在本地获得更好的表征嵌入效果,在另一些实施例中,可以获得基于各个数据所有者的知识库的并集的表征嵌入效果。
另外需要说明的是表征学习(Representation Learning)又称表示学习,是利用机器学习获取每个实体或关系的向量化表达,以便在构建分类器或其他预测变量时更易提取有用信息的方法。在机器学习中,表征学习是特征学习的技术整合,即将原始数据转换为可被机器学习开发的形式,它避免了手动提取特征的繁琐,并且允许学习使用特征的同时掌握提取方式。
本发明的技术构思在于,首先在本地对知识图谱进行表示学习训练获得对齐实体的词向量,然后以联邦学习的方式,接收外部发来的对齐节点的词向量,并通过联邦学习的GAN更新本地的对齐节点的词向量,最后继续进行下一次在本地的对知识图谱进行表示学习训练,以此循环的获得增强的表示学习的效果。为使本发明实例的目的、技术方案和优点更加清楚,下面将结合本发明实例中的附图,对本发明实例中的技术方案进行清楚、完整地描述,显然,所描述的实例是本发明一部分实例,而不是全部的实例。基于本发明中的实例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实例,都属于本发明保护的范围。
本发明第一方面的第一实施例提供了一种基于加密联邦学习的知识图谱表示学习增强方法。本实施例中,数据所有者F1拥有知识库D1,其本地安全网络中运行有对D1进行知识图谱表示学习的第一数据处理端;数据所有者F2拥有知识库D2,其本地安全网络中运行有对D2进行知识图谱表示学习的第二数据处理端;D1与D2具有相关性,如都包含与地理概念的“北京”和交通工具“飞机”同时相关的事实,数据所有者F1与数据所有者F2之间互相不能向对方公开各自的知识库,但是第一数据处理端与第二数据处理端具备跨网关的通信连接。本实施例通过以下步骤,提高第二数据处理端对D2的表示学习效果。如图1所示的实施例方法的流程图,本实例的方法包括步骤101至106。
步骤101,获取原始数据集的知识图谱,在独立知识图谱上进行知识表示学习。
其中,原始数据集为各个数据所有者的知识库,在实施本方法的时间段考虑各相关知识库基本是静态不发生更新的,因此本步骤获得的知识图谱的实体数量在后续过程中不再变化。本实施例中,通过信息抽取技术,抽取原始数据集知识信息,然后通过语义分析获得其对应的原始知识图谱,原始知识图谱中每个实体都被转化为稠密向量用于描述实体对应的词向量。在一些其他实施例中也可以通过其他word embedding或者word2vec等技术获得实体对应的词向量。在该原始知识图谱上进行表示学习,获得原始知识图谱各个对齐实体的词向量集。
具体的,本实施例中,在第二数据处理端,对D2抽取的第二知识图谱进行表示学习,该知识图谱中全部词向量获得更新,即获得了通过表示学习进行多元关系嵌入后的该知识图谱的词向量集合,这个集合包括第二知识图谱中全部第二实体的第二词向量。
本发明中的对于一个知识图谱的一次表示学习,可以通过TransE、TransH、TransR、TransD等方法实现。示范的,本实施例中以TransE实现的在一个知识图谱上进行知识表示学习的具体流程如下:
步骤201,读取一个知识图谱的全部实体和实体之间的关系信息,其中,关系信息包括不同实体间的关系,比如“中国-首都-北京”中的“首都”即为关系信息,(词向量1,两者关系,词向量2)构成一个三元组。各个实体和关系信息分别用一个稠密向量表示,表示实体的稠密向量即该实体的词向量,表示关系的稠密向量即该关系的词向量。将知识图谱的各个实体的词向量和关系的词向量,基于实体和关系的分布式向量表示为多个形如(h,l,t)的三元组实例,其中的关系词向量l看做从实体词向量h到实体词向量t的翻译,该知识图谱全部三元组实例的集合为S。
步骤202,在知识表征学习中通过不断调整h、l和t,使h+l尽可能与t相等,即h+l=t。
令知识表示学习的损失函数为:
其中,h、t为知识图谱中实体的表征词向量,l为知识图谱中关系的表征词向量,S为要训练的知识图谱中所有三元组的集合,S′为要训练的知识图谱中所有三元组的负样本的集合,[]+表示取绝对值操作,γ为预设的一个超参数。
具体的,根据TransE方法,本实施例一次知识表征学习的具体算法流程如下方Algorithm 1所示:
其中k为生成的表征词向量的维数,E为要训练的知识图谱中所有实体的集合,L为要训练的知识图谱中所有关系的集合。
Algorithm 1中,行1-3表示初始化时,对每个输入的未经过训练的知识图谱的每一个三元组(h,l,t)的各元素,随机分配生成一个表征词向量,并将其模长归一化统一为1。
Algorithm 1中,行4-12表示对该知识图谱的各个表征词向量进行训练,其过程如下:首先采用minibatch从S中提取一个包含三元组个数为b的集合Sbatch作为当次训练的样本集合,然后根据Sbatch通过负采样的方法生成Tbatch。Tbatch中的每个元素为Sbatch中的一个三元组(h,l,t)及其对应随机生成的负样本(h′,l,t′)组成的三元组对((h,l,t),(h′,l,t′))。其中,负样本指:(h,l,t)对应的负样本是(h′,l,t′)当且仅当(h,l,t)属于Sbatch,(h′,l,t′)不属于Sbatch。
然后对于Tbatch中的每一组三元组对,用梯度下降的方法进行更新。
通过上述TransE算法,可在一个知识图谱上独立对其进行知识表示学习。在完成形如上述过程的知识图谱的词向量的更新后,获得通过TransE进行多元关系嵌入后的知识图谱的词向量集合,视为该知识图谱获得知识表征能力提升。
步骤102,获取某一知识图谱获得知识表征能力提升的消息。
具体的,在第一数据处理端,完成对D1抽取的第一知识图谱进行表示学习,获得该知识图谱中全部第一实体的第一词向量。基于全网广播的、点对点的或者第三方调度的,第二数据处理端接收到一个第一数据处理端完成知识表征能力提升的消息。在一些实施例中,该消息的转发可以由联邦学习的受各个数据处理端信任的协调方转发,以便在这些消息中包含用于实体对齐的各个第一实体的非加密信息,用于第二数据处理端处理第二知识图谱时,筛选在第二知识图谱存在对应第二实体的第一实体,以便分配对应的索引和堆栈,或者,用于获得该知识图谱中与所述第一实体对齐的第二实体的第二词向量。
步骤103,将对齐节点词向量发送给其他知识图谱节点。对齐节点就是知识图谱中实体节点集合的交集,比如第一知识图谱中有实体“北京”,第二知识图谱二中也有实体“北京”,那么“北京”就是两个知识图谱的对齐实体节点之一。在不同知识图谱之间进行数据共享过程中利用同态加密技术对数据进行保护,在对发送的词向量加密后进行联邦学习,可以保证发送词向量的知识图谱节点不会泄露词向量信息和实体信息给其他知识图谱节点。
具体的,第二数据处理端异步的从第一数据处理端获取第一知识图谱中与第二知识图谱的若干第二实体对齐的第一实体的第一次向量的信息,这些信息是基于联邦学习中的同态加密的。
步骤105,知识图谱收到词向量后利用生成式对抗网络进行联邦学习。
具体的,第二数据处理端接收同态加密的所述第一词向量,使用所述第一词向量和所述第二词向量以生成式对抗网络的形式进行联邦学习,获得所述第二实体的融合后的第三词向量。其他数据处理端收到对齐实体的词向量信息,和本地知识图谱的对齐节点词向量共同输入生成对抗网络进行训练,获取训练出的融合词向量,用于将本地知识图谱中原始的词向量替换。
示范的,本实施例中,以生成式对抗网络的形式进行联邦学习得到融合的词向量的步骤包括:
步骤301,将第二数据提供方接收到的第一词向量的集合记为X={x1,…,xn},即以第一数据提供方为远端数据所有者的,获取其提供的对齐节点的词向量的集合;将第二知识图谱内与X中各个第一词向量对应的第二词向量的集合记为Y={y1,…,yn},即本地知识图谱内对应的对齐节点的词向量的集合。
步骤302,根据所述生成式对抗网络中的生成器W,学习所述生成式对抗网络中的判别器,使其能够区分随机采样于WX={Wx1,…,Wxn}和Y={y1,…,yn}的元素。WX是生成器W分别根据X中各元素随机生成的与其对应的向量元素的集合,这些向量元素含有对应的第一词向量的部分信息。
步骤303,学习所述生成式对抗网络中的生成器W,使其尽可能准确地将X中的元素映射到Y中对应节点的词向量上,使得所述判别器难以判别出一个元素属于WX还是属于Y;
步骤304,训练所述生成式对抗网络,并且,以训练结束后获得的WX中的元素为第三词向量,或者,以训练结束后获得的WX中的元素与对应的Y中的元素求平均后获得的元素为第三词向量,或者,以训练结束后获得的WX中的元素与对应的Y中的元素求和后获得的元素为第三词向量。即融合向量有三种模式,都是对对齐节点embedding的处理,包括:
(1)GAN的结果直接替换对齐节点embedding;
(2)GAN的结果与对齐节点embedding求平均后替换对齐节点embedding;
(3)GAN的结果与对其节点embedding求和后替换对齐节点embedding。
上述生成器和判别器的学习方法,采用标准深度对抗网络的训练流程,对于给定的两组样本X和Y,判别器和生成器依次用随机梯度下降法进行更新,以最小化判别器的目标函数和生成器的目标函数。
判别器的目标函数可以写为:
生成器的目标函数可以写为:
其中:θD是判别器的参数,表示判别器认为z词向量是属于Y中的元素,/>表示判别器认为z词向量是属于/>中的元素。
训练好生成器和判别器后,GAN最终得到的结果是WX中的词向量。
步骤106,用得到的融合词向量替换该知识图谱的原始词向量,并继续进行知识表征学习。
具体的,在第二数据处理端,将所述第二知识图谱中第二实体的第二词向量替换为所述第三词向量后,继续对第二知识图谱进行表示学习,以便获得该知识图谱中各个实体的增强后的第四词向量。
步骤103、105、106将本知识图谱各个节点的词向量发送给其他知识图谱的对齐节点的数据所有者,其他数据所有者收到其一个节点的来自各个数据所有者的对齐节点的词向量,和自己的知识图谱中对齐节点词向量共同输入生成对抗网络进行训练,获取该节点训练出的融合词向量,并将该节点的原始词向量替换。
本发明第一方面的第二实施例提供了一种基于加密联邦学习的知识图谱表示学习增强方法。与第一实施例的区别在于,步骤103替换为步骤104。
步骤104,将对齐节点的一跳节点词向量和对齐节点的词向量共同发送给其他知识图谱节点。以便步骤105中以生成对抗网络的形式进行联邦学习,并将训练得到的融合词向量替换对齐节点的原始词向量。
本实施例中,步骤104、105、106把对齐节点的全部一跳节点的词向量和对齐节点的词向量共同发送给其他数据所有者的知识图谱节点,以生成对抗网络的形式进行联邦学习,并将训练得到的融合词向量替换对齐节点的原始词向量。
相应的,本实施例中,在第一数据处理端,对第一知识图谱进行表征学习,获得该知识图谱中第一实体的第一词向量以及该第一实体的一跳节点的第一词向量;在第二数据处理端,对第二知识图谱进行表征学习,获得该知识图谱中与所述第一实体对齐的第二实体的第二词向量以及与所述第一实体一跳节点对齐的第二实体一跳节点的第二词向量;第二数据处理端接收同态加密的所述第一词向量,使用所述第一词向量和所述第二词向量以生成式对抗网络的形式进行联邦学习,获得所述第二实体的以及一跳节点的融合后的第三词向量;在第二数据处理端,将其所述第二知识图谱中第二实体的及第二实体一跳节点的第二词向量替换为所述第三词向量后,继续对第二知识图谱进行表征学习,以便获得该知识图谱中各个实体的增强后的第四词向量。
本发明第一方面的第三实施例中,所述第二数据处理端向所述第一数据处理端共享所述对抗式生成网络。
本发明第一方面的第四实施例中,网络中存在第三数据提供者,第三数据提供者,根据上述各实施例的方法分别异步的通过第一数据提供者和第二数据提供者各自知识图谱中对齐实体节点的词向量信息提升自身知识表示学习能力。
本发明还提供了一种基于加密联邦学习的知识图谱表示学习增强装置实施例。本实施例装置是一种联邦学习装置,其包括,同时部署于第一数据所有者本地的第一数据处理端和第二数据所有者本地的第二数据处理端的异步训练装置,以及部署于联邦学习服务器的一个生成式对抗学习装置。
其中,每个异步训练装置,其结构如图2所示,包括:
读取模块11,用于读取本地原始知识库,将其预处理为包含词向量的本地知识图谱。该模块将数据所有者的原始知识库读入联邦学习装置中,并对知识库进行预处理,为联邦学习准备运行条件,如完成步骤101中获取词向量和关系,并以此构建三元组集合。
表征学习模块12,用于接收第一请求,作为响应的启动一次对所述本地知识图谱的表征学习,以便更新所述本地知识图谱中各个实体的词向量。该模块用于分布式地在各个知识图谱上启动知识表示学习,并记录自身知识图谱的学习情况,如完成步骤101、106中的表征学习。所述第一请求可以由本异步训练装置提供,也可以由外部的生成式对抗学习装置提供。
通信模块13,用于与联邦学习服务器以及其他数据处理端进行通信,以便接收所述其他数据处理端的知识图谱的共享词向量信息;所述共享词向量信息经过同态加密。该模块用于知识图谱节点与整个分布式联邦学习装置、其他知识图谱节点进行通信,在自身知识表征能力得到提高时向其他知识图谱发送共享词向量信息,即所有对齐节点的词向量,接收其他知识图谱节点发来的共享词向量信息。具体的,通信模块13用于接收步骤102的消息。在一些其他实施例中,通讯模块向所述其他数据处理端发送所述本地知识图谱的共享词向量信息;所述共享词向量信息经过同态加密。
联邦学习模块14,用于将所述共享词向量信息与本地相应词向量送入生成式对抗网络学习,并获得融合后的词向量;所述融合后的词向量用于替换所述本地知识图谱的全部或者部分实体的词向量。该模块用于将接收的共享词向量与自身相应词向量送入生成对抗网络学习,并用得到的融合词向量替换本知识图谱自身对齐节点的词向量。
运行监控模块15,用于监督所述异步训练装置执行第一方面提供的知识图谱表示学习增强方法;和/或,用于裁定所述异步训练装置的运行状态;和/或,用于调节所述联邦学习模块的学习效果。
本实施例的生成式对抗学***均后获得的元素为所述第三词向量输出,或者,以训练结束后获得的WX中的元素与对应的Y中的元素求和后获得的元素为所述第三词向量输出。本实施例中,各个数据处理端共同训练同一个生成式对抗网络,可以获得基于各个数据所有者的知识库的并集的表征嵌入效果,在一些其他实施例中,生成式对抗学习装置部署于数据处理端,各个数据处理端训练各自的生成式对抗网络,也可以使数据所有者在本地获得更好的表征嵌入效果。
本实施例的装置对应地可用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实例基于加密联邦学习的知识图谱表示学习增强方法和异步训练装置。获取原始数据集的知识图谱,在独立知识图谱上进行知识表示学习。在某一知识图谱学习获得知识表征能力提升之后,将对齐节点的词向量加密后发送给其他知识图谱节点,其他知识图谱节点在接受词向量后进行联邦学习。在联邦学习中,将收到的词向量和本知识图谱对齐节点的词向量共同输入生成对抗网络进行训练,训练后得到融合词向量,并将本知识图谱节点的原始词向量进行替换。在此基础上,将对齐节点的一跳节点的词向量和对齐节点的词向量共同输入生成对抗网络,进行联邦学习,并将训练出的融合词向量替换对其节点的原始词向量。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于加密联邦学习的知识图谱表示学习增强方法,包括:
在第一数据处理端,对第一知识图谱进行表征学习,获得该知识图谱中第一实体的第一词向量;
在第二数据处理端,对第二知识图谱进行表征学习,获得该知识图谱中与所述第一实体对齐的第二实体的第二词向量;
第二数据处理端接收同态加密的所述第一词向量,使用所述第一词向量和所述第二词向量以生成式对抗网络的形式进行联邦学习,获得所述第二实体的融合后的第三词向量;
在第二数据处理端,将所述第二知识图谱中第二实体的第二词向量替换为所述第三词向量后,继续对第二知识图谱进行表征学习,以便获得该知识图谱中各个实体的增强后的第四词向量。
2.根据权利要求1所述的知识图谱表示学习增强方法,其特征在于,包括:
在第一数据处理端,对第一知识图谱进行表征学习,获得该知识图谱中第一实体的第一词向量以及该第一实体的一跳节点的第一词向量;
在第二数据处理端,对第二知识图谱进行表征学习,获得该知识图谱中与所述第一实体对齐的第二实体的第二词向量以及与所述第一实体一跳节点对齐的第二实体一跳节点的第二词向量;
第二数据处理端接收同态加密的所述第一词向量,使用所述第一词向量和所述第二词向量以生成式对抗网络的形式进行联邦学习,获得所述第二实体的以及一跳节点的融合后的第三词向量;
在第二数据处理端,将其所述第二知识图谱中第二实体的及第二实体一跳节点的第二词向量替换为所述第三词向量后,继续对第二知识图谱进行表征学习,以便获得该知识图谱中各个实体的增强后的第四词向量。
3.根据权利要求1所述的知识图谱表示学习增强方法,其特征在于,所述表征学习通过TransE方法进行表示嵌入。
4.根据权利要求1所述的知识图谱表示学习增强方法,其特征在于,所述以生成式对抗网络的形式进行联邦学习的步骤包括:
将第二数据提供方接收到的第一词向量的集合记为
,将第二知识图谱内与/>中各个第一词向量对应的第二词向量的集合记为/>;
根据所述生成式对抗网络中的生成器,学习所述生成式对抗网络中的判别器,使其能够区分随机采样于/>和/>的元素;
学习所述生成式对抗网络中的生成器,使其尽可能准确地将/>中的元素映射到/>中对应节点的词向量上,使得所述判别器难以判别出一个元素属于/>还是属于/>;
训练所述生成式对抗网络,并且,
以训练结束后获得的中的元素为第三词向量,
或者,
以训练结束后获得的中的元素与对应的Y中的元素求平均后获得的元素为第三词向量,
或者,
以训练结束后获得的中的元素与对应的Y中的元素求和后获得的元素为第三词向量。
5.根据权利要求1至4任一项所述的知识图谱表示学习增强方法,其特征在于:所述第二数据处理端向所述第一数据处理端共享所述对抗式生成网络。
6.一种异步训练装置,部署于数据处理端,其特征在于,包括:
读取模块,用于读取本地原始知识库,将其预处理为包含词向量的本地知识图谱;
表征学习模块,用于接收第一请求,作为响应的启动一次对所述本地知识图谱的表征学习,以便更新所述本地知识图谱中各个实体的词向量;
通信模块,用于与联邦学习服务器以及其他数据处理端进行通信,以便接收所述其他数据处理端的知识图谱的共享词向量信息;所述共享词向量信息经过同态加密;
联邦学习模块,用于将所述共享词向量信息与本地相应词向量送入生成式对抗网络学习,并获得融合后的词向量;所述融合后的词向量用于替换所述本地知识图谱的全部或者部分实体的词向量。
7.根据权利要求6所述的异步训练装置,其特征在于:所述通信模块向所述其他数据处理端发送所述本地知识图谱的共享词向量信息;所述共享词向量信息经过同态加密。
8.根据权利要求6所述的异步训练装置,其特征在于:包含运行监控模块;所述运行监控模块用于监督所述异步训练装置执行权利要求1至5任一项所述的知识图谱表示学习增强方法;和/或,用于裁定所述异步训练装置的运行状态;和/或,用于调节所述联邦学习模块的学习效果。
9.一种生成式对抗学习装置,部署于数据处理端或者联邦学习服务器,其特征在于,包括:
存储器,用于存储计算机可执行代码和生成式对抗网络;
通讯接口,用于通过权利要求6至8任一项所述异步训练装置的通信模块与其联邦学习模块通信连接,以便从所述联邦学习模块接收第一词向量的集合和第二词向量的集合,向所述联邦学习模块发送第三词向量的集合;
处理器,用于读取和执行所述计算机可执行代码,以便配置和训练所述生成式对抗网络;所述处理器执行所述计算机可执行代码时,所述计算机可执行代码的指令致使所述处理器执行以下操作:
将所述第一词向量的集合记为,将/>中各个第一词向量对应的第二词向量的集合记为/>;
根据所述生成式对抗网络中的生成器,学习所述生成式对抗网络中的判别器,使其能够区分随机采样于/>和/>的元素;
学习所述生成式对抗网络中的生成器,使其尽可能准确地将/>中的元素映射到/>中对应节点的词向量上,使得所述判别器难以判别出一个元素属于/>还是属于/>;
训练所述生成式对抗网络,并且,
以训练结束后获得的中的元素为所述第三词向量输出,
或者,
以训练结束后获得的中的元素与对应的Y中的元素求平均后获得的元素为所述第三词向量输出,
或者,
以训练结束后获得的中的元素与对应的Y中的元素求和后获得的元素为所述第三词向量输出。
10.一种联邦学习装置,其特征在于,包括:
权利要求6至8任一项所述的异步训练装置;
权利要求9所述的生成式对抗学习装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010629643.8A CN111858955B (zh) | 2020-07-01 | 2020-07-01 | 基于加密联邦学习的知识图谱表示学习增强方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010629643.8A CN111858955B (zh) | 2020-07-01 | 2020-07-01 | 基于加密联邦学习的知识图谱表示学习增强方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111858955A CN111858955A (zh) | 2020-10-30 |
CN111858955B true CN111858955B (zh) | 2023-08-18 |
Family
ID=73152608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010629643.8A Active CN111858955B (zh) | 2020-07-01 | 2020-07-01 | 基于加密联邦学习的知识图谱表示学习增强方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858955B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365429B (zh) * | 2020-12-21 | 2022-07-22 | 神思电子技术股份有限公司 | 一种知识驱动的图像模糊区域清晰度增强方法 |
CN113157938B (zh) * | 2021-03-25 | 2022-05-17 | 支付宝(杭州)信息技术有限公司 | 保护隐私数据的多个知识图谱联合处理的方法和装置 |
CN113434626B (zh) * | 2021-08-27 | 2021-12-07 | 之江实验室 | 一种多中心医学诊断知识图谱表示学习方法及*** |
CN113886598A (zh) * | 2021-09-27 | 2022-01-04 | 浙江大学 | 一种基于联邦学习的知识图谱表示方法 |
CN113973125A (zh) * | 2021-10-26 | 2022-01-25 | 杭州博盾习言科技有限公司 | 联邦学习中的通信方法及装置、电子设备、存储介质 |
CN115062159B (zh) * | 2022-06-13 | 2024-05-24 | 西南交通大学 | 基于联邦学习的多粒度事件预警动态知识图谱嵌入模型构造方法 |
CN116757275B (zh) * | 2023-06-07 | 2024-06-11 | 京信数据科技有限公司 | 一种知识图谱的联邦学习装置及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190103088A (ko) * | 2019-08-15 | 2019-09-04 | 엘지전자 주식회사 | 연합학습을 통한 단말의 명함을 인식하는 방법 및 이를 위한 장치 |
CN110266771A (zh) * | 2019-05-30 | 2019-09-20 | 天津神兔未来科技有限公司 | 分布式智能节点及分布式群体智能统部署方法 |
CN110428058A (zh) * | 2019-08-08 | 2019-11-08 | 深圳前海微众银行股份有限公司 | 联邦学习模型训练方法、装置、终端设备及存储介质 |
CN110572253A (zh) * | 2019-09-16 | 2019-12-13 | 济南大学 | 一种联邦学习训练数据隐私性增强方法及*** |
CN110633805A (zh) * | 2019-09-26 | 2019-12-31 | 深圳前海微众银行股份有限公司 | 纵向联邦学习***优化方法、装置、设备及可读存储介质 |
CN110874648A (zh) * | 2020-01-16 | 2020-03-10 | 支付宝(杭州)信息技术有限公司 | 联邦模型的训练方法、***和电子设备 |
CN110955907A (zh) * | 2019-12-13 | 2020-04-03 | 支付宝(杭州)信息技术有限公司 | 一种基于联邦学习的模型训练方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11475350B2 (en) * | 2018-01-22 | 2022-10-18 | Google Llc | Training user-level differentially private machine-learned models |
-
2020
- 2020-07-01 CN CN202010629643.8A patent/CN111858955B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110266771A (zh) * | 2019-05-30 | 2019-09-20 | 天津神兔未来科技有限公司 | 分布式智能节点及分布式群体智能统部署方法 |
CN110428058A (zh) * | 2019-08-08 | 2019-11-08 | 深圳前海微众银行股份有限公司 | 联邦学习模型训练方法、装置、终端设备及存储介质 |
KR20190103088A (ko) * | 2019-08-15 | 2019-09-04 | 엘지전자 주식회사 | 연합학습을 통한 단말의 명함을 인식하는 방법 및 이를 위한 장치 |
CN110572253A (zh) * | 2019-09-16 | 2019-12-13 | 济南大学 | 一种联邦学习训练数据隐私性增强方法及*** |
CN110633805A (zh) * | 2019-09-26 | 2019-12-31 | 深圳前海微众银行股份有限公司 | 纵向联邦学习***优化方法、装置、设备及可读存储介质 |
CN110955907A (zh) * | 2019-12-13 | 2020-04-03 | 支付宝(杭州)信息技术有限公司 | 一种基于联邦学习的模型训练方法 |
CN110874648A (zh) * | 2020-01-16 | 2020-03-10 | 支付宝(杭州)信息技术有限公司 | 联邦模型的训练方法、***和电子设备 |
Non-Patent Citations (1)
Title |
---|
基于全同态加密的云数据安全方案研究;许爱雪等;《石家庄铁路职业技术学院学报》;63-67 * |
Also Published As
Publication number | Publication date |
---|---|
CN111858955A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858955B (zh) | 基于加密联邦学习的知识图谱表示学习增强方法和装置 | |
US11836583B2 (en) | Method, apparatus and system for secure vertical federated learning | |
US20230039182A1 (en) | Method, apparatus, computer device, storage medium, and program product for processing data | |
US9787647B2 (en) | Secure computer evaluation of decision trees | |
Liu et al. | Performing co-membership attacks against deep generative models | |
Stripelis et al. | Secure neuroimaging analysis using federated learning with homomorphic encryption | |
CN111031071B (zh) | 恶意流量的识别方法、装置、计算机设备及存储介质 | |
Zheng et al. | Securely and efficiently outsourcing decision tree inference | |
CN112765652B (zh) | 叶节点分类权值的确定方法、装置、及设备 | |
Liang et al. | Efficient and privacy-preserving decision tree classification for health monitoring systems | |
CN110717555B (zh) | 一种基于自然语言和生成对抗网络的图片生成***及装置 | |
Liu et al. | Encryption method and security analysis of medical images based on stream cipher enhanced logical mapping | |
Shafique et al. | A novel machine learning technique for selecting suitable image encryption algorithms for IoT applications | |
CN117521102A (zh) | 一种基于联邦学习的模型训练方法及装置 | |
Kortoçi et al. | Federated split gans | |
CN116743743A (zh) | 一种元宇宙数据分享方法及*** | |
CN114329127B (zh) | 特征分箱方法、装置及存储介质 | |
CN116821838B (zh) | 一种隐私保护的异常交易检测方法及装置 | |
CN114121206B (zh) | 一种基于多方联合k均值建模的病例画像方法及装置 | |
Hoefer et al. | Performance evaluation of a differentially-private neural network for cloud computing | |
Alaverdyan et al. | Edge Computing: Data Sharing and Intelligence | |
Afandi et al. | Explainable YouTube video identification using sufficient input subsets | |
CN117592555B (zh) | 一种面向多源异构医疗数据的联邦学习方法及*** | |
Tran et al. | Secure Inference via Deep Learning as a Service without Privacy Leakage | |
Mandal et al. | Proceedings of the International Conference on Computing and Communication Systems: I3CS 2016, NEHU, Shillong, India |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |